AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。
基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。
最近两周的模型竞赛非常热闹:OpenAI 在 11 月 12 日发布 GPT-5.1,引入更强的推理深度与更高效的对话体验;Google 在 11 月 18 日发布 Gemini 3,全面强化多模态理解与复杂推理能力;Anthropic 在 11 月 24 日又发布了 Claude Opus 4.5,模型在专业文档处理、代码生成与长流程 agent 方面有显著提升。
前些天,一项「AI 传心术」的研究在技术圈炸开了锅:机器不用说话,直接抛过去一堆 Cache 就能交流。让人们直观感受到了「去语言化」的高效,也让机器之心那条相关推文狂揽 85 万浏览量。参阅报道《用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出 Cache-to-Cache 模型通信新范式》。
2小时17分钟,这是截至2025年8月,前沿AI模型在保持50%成功率的前提下,能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段,跨越到了处理“小时级”的复杂工程任务。
最近,SuperMe 完成了 680 万美元的种子轮融资,由 Greylock 的 Mike Duboe 领投。这家公司正试图用 AI 重新定义职业网络的运作方式,让真正的专业知识变得可被发现、可被访问,而不需要专业人士成为全职内容创作者
如果告诉你,仅仅改变提示词(Prompt)的结构,就能让大模型在复杂推理任务上的表现暴涨 60%,你相信吗?
上上周四,我去杭州给一家企业做了一场AI编程培训,内容是 Claude Code。
2025年的AI世界,开始出现两种截然不同的声音。OpenAI忙着推出语音、视频、插件生态,想让每个人都用上ChatGPT;Anthropic在研究利润。最新预测显示,这家公司到2028年或将实现700亿美元营收、170亿美元自由现金流。同样是AI巨头,一个押注规模,一个押注稳定。AI的叙事,正在悄悄换频道。
Beside 要解决的正是这个核心问题。他们并不是简单地在现有电话系统上加一层 AI,而是从底层重建了整个电话基础设施。这意味着他们能够直接接入电话网络,捕获每一通来电和短信,然后让 AI 在这些实时对话中发挥作用。
2000 亿参数、3 万块人民币、128GB 内存,这台被称作「全球最小超算」的机器,真的能让我们在桌面上跑起大模型吗? 向左滑动查看更多内容,图片来自 x@nvidia 前段时间,黄仁勋正式把这台超