GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
在AI热潮中,大模型最「渴求」的究竟是什么?是算力、是存储,还是复杂的网络互联?在Hot Chips 2025 上,Transformer发明者之一、谷歌Gemini联合负责人Noam Shazeer给出了答案。
就在昨天深夜,马斯克的 xAI 悄无声息地扔出了一颗重磅炸弹——Grok 4 Fast!
一个从谷歌「打工人」走出的数学怪才,靠着自掏腰包创业,五年把公司做到营收超12亿美元,估值300亿美金。他讨厌硅谷的浮夸,却意外登上《福布斯400》富豪榜,成为最年轻的成员。
上个月,国务院发布了《关于深入实施“人工智能+”行动的意见》。文件设定了到 2027、2030 乃至 2035 年的目标:AI 要全面嵌入科研、产业等领域,加快探索 AI 驱动的新型科研范式,成为推动中国社会全面跃迁的关键力量。
Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。
9月20日,在AI创造者嘉年华的主舞台,硅星人创始人兼CEO骆轶航,与金沙江创投管理合伙人朱啸虎,在露天主舞台进行了一场对话。
近日,明略科技推出的基于多模态基础模型的网页 GUI 智能体 Mano,凭借其强大的性能,在行业内公认的两大挑战基准 ——Mind2Web 和 OSWorld 上同时刷新纪录,取得当前最佳成绩(SOTA)。
在华为全联接大会2025上,鸿蒙操作系统5展示了其更强大的AI全场景能力,包括“小艺任务空间”“情绪感知”以及“小艺大脑”等一系列更高阶的AI全场景体验。无论是出差订票、日程安排,还是多设备联动播放音乐,AI助手小艺都能听得懂、做得到。
xAI重磅推出Grok 4 Fast,创新融合推理与非推理双模式,支持200万token上下文。在NYT Connections基准和AA智能指数中表现卓越,超越多家顶级模型,标志着AI智能获取门槛的进一步降低。