
Claude 3.5首战复现21%顶会论文,人类博士无法取代,OpenAI:AI全是草台班子
Claude 3.5首战复现21%顶会论文,人类博士无法取代,OpenAI:AI全是草台班子自己「打脸」自己?
自己「打脸」自己?
PaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。
刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务。
“艺术家与人工智能”的张力正在持续紧张。OpenAI虽然声称避免复制“个别在世艺术家的风格”,但它一直在践行并推动政策允许AI对版权内容的训练;而小部分能够承担高昂诉讼成本的艺术家,却也因为版权法灰色地带而面临不确定的局面,更不要说那些不知名的艺术家们了。
上周,OpenAI 正式支持 MCP 协议的消息,无疑成为 AI 基础设施演进的重要里程碑。短短几个月内,从 Anthropic 首次提出到微软、OpenAI 等巨头先后加入,这一标准正在以惊人的速度完成从提出、验证到主流采纳的跃迁。
OpenAI真的要开源了!奥特曼官宣,即将开源自GPT-2以来的首款推理模型,可在消费级硬件上运行。同时,OpenAI又拿到了最高400亿单轮融资,估值直冲3000亿。
一夜之间,OpenAI更新三大动向,开源、融资、用户暴增。第一,将开源一个具备推理能力的大语言模型,包含参数权重那种。上一次这样开源还是6年前推出GPT-2。
由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。然而,针对大语言模型的大规模强化学习训练门槛一直很高:
GPT-4o玩家太疯狂,奥特曼紧急呼吁别再生成图片了:OpenAI团队为此一直在熬夜。为什么需要熬夜呢,自原生图像生成推出以来,必须一直有人守着才能保持服务器在线。
AI圈最热的风头莫过于GPT-4o的原生图像,但别急着下定论。Gemini 2.5 Pro正在悄悄反击,在Chatbot竞技场夺冠、IQ测试拿下第一后,它还能解魔方、建模型、创游戏,甚至一键生成3D打印文件!AI的下一个战场,正在从文字转向视觉与空间,谁能笑到最后?