神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。
搜索
今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。
近日,DeepMind 团队将水印技术和投机采样(speculative sampling)结合,在为大语言模型加入水印的同时,提升其推理效率,降低推理成本,因此适合用于大规模生产环境。
李飞飞谈到的空间智能,被这家中国独角兽补上关键一环。
Powerful AI 预计会在 2026 年实现,足够强大的 AI 也能够将把一个世纪的科研进展压缩到 5-10 年实现(“Compressed 21st Century”),在他和 Lex Fridman 的最新对谈中,Dario 具体解释了自己对于 Powerful AI 可能带来的机会的理解,以及 scaling law、RL、Compute Use 等模型训练和产品的细节进行了分享
据全球知名创投研究机构 CB Insights 发布的统计数据显示,2024 年第三季度,接近 1/3(31%)的风险投资流入了 AI 初创企业。另根据 Crunchbase 的数据,AI 公司在 2024 年第三季度筹集了 190 亿美元,占所有风险投资的 28%。2024 年第三季度还完成了有史以来最大的风险投资交易:OpenAI 募集了 66 亿美元的巨额资金。
身为OpenAI的CEO的他身价20亿美元,年薪仅为7.6万刀,堪比互联网打工人。
在2024年的AI领域,我们正在见证一个有趣的转折。 OpenAI的进展节奏明显放缓,GPT-5迟迟未能问世,“Scaling Law”成了天方夜谭,即便是年初震撼业界的视频生成模型Sora,也未能如期实现“全面开放”的承诺。
2024年世界互联网大会领先科技奖揭晓,文心智能体技术获奖!至此,百度大模型技术已连续两年获得该奖。
近日,来自斯坦福、MIT等机构的研究人员推出了低秩线性转换方法,让传统注意力无缝转移到线性注意力,仅需0.2%的参数更新即可恢复精度,405B大模型两天搞定!
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。