
斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔
斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔2025年斯坦福HAI报告重磅发布,456页深度剖析全球AI领域的最新趋势:中美顶级模型性能差距缩至0.3%,以DeepSeek为代表的模型强势崛起,逼近闭源巨头;推理成本暴降,小模型性能飙升,AI正变得更高效、更普惠。
2025年斯坦福HAI报告重磅发布,456页深度剖析全球AI领域的最新趋势:中美顶级模型性能差距缩至0.3%,以DeepSeek为代表的模型强势崛起,逼近闭源巨头;推理成本暴降,小模型性能飙升,AI正变得更高效、更普惠。
多模态,性能超 GPT-4o Mini、Gemma 3,还能在单个 RTX 4090 上运行,这个小模型值得一试。
7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主?
都说通用大模型轻松拿捏翻译,结果有人来掀桌了。
32B小模型在超硬核「时间线索」推理谜题中,一举击败了o1、o3-mini、DeepSeek-R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍。
随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景,形式化推理与验证(formal reasoning and verification),也获得持续关注。
动辄百亿、千亿参数的大模型正在一路狂奔,但「小而美」的模型也在闪闪发光。
只刷逻辑益智题,竟能让 AI 数学竞赛水平大幅提升?
强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了!
就在刚刚,奥特曼发了个推特,轻描淡写透露了个大消息: For our next open source project……