视频模型也能推理,Sora2推理能力超过GPT-5
视频模型也能推理,Sora2推理能力超过GPT-5DeepWisdom研究团队提出:视频生成模型不仅能画画,更能推理。 为了验证这一观点,团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理(spatial reasoning)能力的基准测试
DeepWisdom研究团队提出:视频生成模型不仅能画画,更能推理。 为了验证这一观点,团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理(spatial reasoning)能力的基准测试
一年一度的英伟达奖学金出炉了。二十五年来,英伟达研究生奖学金计划(NVIDIA Graduate Fellowship Program)一直为研究生提供与英伟达技术相关的杰出工作支持。
这篇学术论长文由北京航空航天大学复杂关键软件环境全国重点实验室领衔。《From Code Foundation Models to Agents and Applications》一文是对过去几年代码智能领域的一次系统梳理:模型、任务、训练、智能体、安全与应用都被串联成了一条完整、连贯的技术链路。
2025 年 12 月,硅谷风险投资机构 Andreessen Horowitz(简称 a16z)与 AI 推理服务平台 OpenRouter 联合发布了一份名为《State of AI》的研究报告。这份报告基于 OpenRouter 平台上超过 100 万亿 token 的真实用户交互数据,试图呈现过去一年间大语言模型在实际应用中的真实状态。
确实也是轰动数学和AI两界了。因为就在最近,世界级顶尖数学家宣布辞职,前往硅谷,全职加入AI初创公司——这家公司,还是自己学生创办的——一个24岁00后华人女生。吸引他的这家公司,也不是等闲之辈,而是硅谷新贵——Axiom,一家主打AI数学的明星公司。
来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode,在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶,力压一众编程智能体。
近日,AI 初创公司 Axiom 宣布其模型在没有人类干预的情况下,自动完成了两个数学猜想的证明——埃尔德什问题(Erdős Problem)中的 481 号和 124 号。据称,481 号问题仅用时 5 小时,代码量为 656 行;124 号问题则耗时超 24 小时。值得关注的是,这些证明均通过 Lean 验证,Lean 的特点是其形式化证明过程无需人工干预,为数学正确性提供了保障。
阿蒂从洛杉矶飞来,谈论他的初创公司上周发布的重磅消息。Klay 已与各大唱片公司——环球音乐集团、华纳音乐集团和索尼音乐—— 达成批准上市许可/注册协议 ,成为首家与这三巨头全部签约的人工智能初创企业。
Anthropic发布了Programmatic Tool Calling(PTC)特性,让Claude通过代码编排工具执行,降低token消耗、减少延迟并提升准确性。
全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。