
深度|a16z Agent工具实测:Manus/Genspark全能但生成时间是硬伤,垂直工具赢在细节与效率
深度|a16z Agent工具实测:Manus/Genspark全能但生成时间是硬伤,垂直工具赢在细节与效率在AI办公工具的新浪潮中,一个新的概念正迅速走向舞台中央——Agentic生产率。这已不再是单纯的自动化工具,而是AI以“工作伙伴”的身份深度嵌入日常流程,从撰写邮件到制作表格,从生成PPT到整理会议纪要,全方位提升效率。
在AI办公工具的新浪潮中,一个新的概念正迅速走向舞台中央——Agentic生产率。这已不再是单纯的自动化工具,而是AI以“工作伙伴”的身份深度嵌入日常流程,从撰写邮件到制作表格,从生成PPT到整理会议纪要,全方位提升效率。
顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。
AI模型排行榜分两类:以高考式标准化测试衡量特定能力的客观基准测试(如AAII、MMLU-Pro),以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场(如LMArena)。两者各有优劣和局限性,且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型,实用性至上。
好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。
6月5日,微博认证为“ZEALER创始人&CEO”的王自如发文称,“明天我想用15分钟的时间带大家了解我为什么离开 ZEALER 、为什么离开格力,以及我为什么在AI领域选择二次创业,期待明天与大家重新认识。
你以为大模型已经能轻松“上网冲浪”了?
多模态大模型几何解题哪家强?
最近,我撞见了一个 DeepSeek 又“认真”又“拧巴”的怪异场景。
近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。
那么,DeepSeek-R1 的 ARC-AGI 成绩如何呢?根据 ARC Prize 发布的报告,R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型,更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势:成本低。