谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新
7091点击    2026-01-26 11:29

面对琳琅满目的Deep Research Agent(深度研究智能体),究竟该如何选型?本文基于OSU与Amazon最新发布的MMDR-Bench论文,为您提供一份经过严谨科学验证的“避坑指南”。结论先行:综合任务首选谷歌Gemini Deep Research,而涉及计算机科学与数据结构的硬核任务,GPT-5.2依然是专家首选。


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


随着Deep Research概念的爆发,大家面临着一个共同的困惑:在处理包含大量复杂图表、需要多步联网检索的真实任务时,到底哪家强? 这里的评价标准不再是简单的文本生成流畅度,而是对视觉证据的精确提取和引用源的绝对诚实。


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


俄亥俄州立大学(OSU)联合亚马逊最新发布的MMDeepResearch-Bench,可能是目前业内最严苛的端到端多模态研究基准。他们用140个专家级任务,对当下最前新的25款顶尖模型进行了“全身体检”。


这篇文章专注于为您解读这份“体检报告”背后的硬核价值:为什么Gemini在多模态整合上遥遥领先?为什么文笔最好的模型反而最容易造假?以及在不同的垂直技术栈中,您应该如何配置您的Agent选型策略。


MMDR-Bench


研究者构建了包含140个专家级任务的数据集,覆盖21个专业领域。与以往不同,这些任务被设计为“图文捆绑包(Image-Text Bundle)”,强制要求AI必须结合视觉信息才能作答。


能力分层


官方项目主页通过一个清晰的层级图展示了其考核逻辑:


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


  • 基础原子层 (Foundational Level):考察AI的基本功。
  • 视觉感知:能否读懂图表中的数据点?
  • 搜索工具:能否正确使用浏览器检索信息?
  • 长文本理解:能否消化冗长的检索结果?
  • 深度整合层 (Deep Research Level):考察AI像人一样工作的能力。
  • 视觉规划:根据图片内容决定去搜什么(例如:看到一张未知的芯片架构图,知道去搜其具体参数)。
  • 引证推理:将搜到的文本证据与图片事实链接起来。
  • 报告合成:生成图文并茂、引用规范的专业报告。


两种实战体制


数据集模拟了两种截然不同的真实场景:


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


  • 日常体制 (Daily Regime, ~29%):处理生活中的非结构化图片,如屏幕截图、生活照。例如:“根据这张眼药水照片,判断它是否适合我的症状,并在伦敦寻找替代品。”
  • 研究体制 (Research Regime, ~71%):处理高密度的科学图表、架构图。例如:“从这张Transformer架构图中提取10个事实,并推导其时间复杂度。”


专家级的数据质量


为了保证任务的难度和合理性,所有任务都经过了博士级领域专家的反复打磨。


  • 多模态必要性:确保任务必须看图才能做,杜绝“盲猜”。
  • 可验证性:确保生成的报告可以通过引用来验证真伪。


评估方法论:一套严苛的“三审”机制


仅仅有题目是不够的,如何给一篇几千字、包含大量引用和图表分析的报告打分?这是该论文最大的技术贡献之一。


研究者提出了一套名为MMDR-Eval的统一评估管道,包含三个核心模块,依次对报告进行“体检”。


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


第一关:FLAE 报告写得像样吗?


FLAE (Formula-LLM Adaptive Evaluation) 主要负责评估长篇报告的整体质量。


写报告这件事,不同领域要求不同。FLAE采用了一种“混合评价”策略:


  • 公式化指标:统计词汇多样性、句子结构、排版合规性等硬指标,这部分完全客观可复现。
  • 大模型裁判(LLM Judge):利用经过校准的大模型,根据任务的具体要求,动态调整评分权重。


它从三个维度打分:


  1. 可读性 (Readability):文章是否通顺、清晰。
  2. 深刻性 (Insightfulness):是否进行了深度合成和对比,而非简单的罗列。
  3. 结构完整性 (Structural Completeness):章节安排是否合理,是否包含了参考文献部分。


第二关:TRACE 引用是瞎编的吗?(核心!)


TRACE (Trustworthy Retrieval-Aligned Citation Evaluation) 是整个评估体系中最核心的部分,权重占比最高(50%)。它不仅检查AI是否找到了信息,更检查AI是否诚实


AI研究员最怕的就是“幻觉”,—本正经地胡说八道。TRACE通过以下步骤进行审计:


  1. 解析与提取:提取报告中的每一个“声明(Claim)”及其对应的“引用链接(URL)”。
  2. 联网核查:系统会真的去访问那些URL,抓取内容。
  3. 一致性校验:判断网页内容是否真的支持AI的观点。


核心创新:视觉证据保真度 (VEF)


在TRACE中,研究者引入了一个极其严格的指标:VEF (Visual Evidence Fidelity)


  • 原理:专家为每个任务撰写了“文本化视觉真值(Visual Ground Truth)”,记录了图片中所有客观存在的事实(如具体的数值、物体名称、图表趋势)。
  • 一票否决制:这是一个硬性的PASS/FAIL检查。如果AI在报告中对图片内容的描述出现了事实性错误(比如把图表里的10% 读成了20%,或者编造了图片里没有的物体),VEF得分直接不及格。
  • 目的:强迫AI对视觉证据负责,绝不容忍“看图说话编故事”。


第三关:MOSAIC 图文逻辑通顺吗?


如果报告通过了前两关(得分非零),就会触发MOSAIC (Multimodal Support-Aligned Integrity Check)


这个模块专门检查“文本”和“视觉附件”之间的整合度。因为图表和照片的分析逻辑是不同的,MOSAIC设计了一个路由机制(Router)


  • 数据图表(Charts):重点检查数值的精确性和趋势解读的准确性(Plausibility)。
  • 图示(Diagrams):重点检查结构对应关系。
  • 照片(Photos):重点检查语义是否匹配。


这种分而治之的策略,确保了无论是分析财务报表还是识别植物照片,都能得到公正的评价。


参赛选手:25位顶尖AI的角逐


研究者在2024年底到2025年初的测试窗口期内,选取了25个代表性的系统进行评测,涵盖了三个梯队:


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


1.单模态基准(Tier 1)

  • 代表:DeepSeek-V3.2, Qwen 3 (235B), OpenAI o3-mini。
  • 特点:没有联网搜索能力,纯靠模型内建知识推理。

2.联网多模态模型(Tier 2)

  • 代表:GPT-5.1/5.2, Claude 4.5 (Sonnet/Opus), Gemini 3 Pro/Flash。
  • 特点:具备内置的浏览器工具,可以看图并搜索,是目前最主流的高级用法。

3.深度研究代理(Tier 3)

  • 代表:Gemini Deep Research, ChatGPT Deep Research, Tongyi Deep Research, Perplexity Sonar。
  • 特点:专门设计的智能体,能够自主规划多步搜索、整合大量来源并撰写报告。


战况揭晓:深度解析Model Rankings总榜


实验结果不仅是一个简单的排名,更揭示了当前AI模型能力的断层特化。让我们对照上方的大型榜单(Model Rankings),通过三个维度来拆解这张复杂的“体检报告”。


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


如何读懂这张图?(Metric Key)


在看排名之前,您需要理解决定分数的三个核心权重,这直接决定了模型的胜负手:


  • FLAE (20% 权重)“写作”能力。看报告写得漂不漂亮,结构是否完整。
  • TRACE (50% 权重)“实锤”能力。这是重头戏,考察引用是否真实存在(Con./Cov.)以及是否忠实于原文。
  • 关键指标VEF (Visual Evidence Fidelity)视觉“测谎仪”。这是专门针对多模态的一票否决项。如果模型对着图表胡说八道,该项得分为0,直接拉低总分。
  • MOSAIC (30% 权重)“图文对齐”能力。考察文本描述与插入的图表、数据是否在逻辑和语义上一致。


榜单梯队:谁在领跑?谁在掉队?


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


第一梯队:Gemini家族的统治级表现


榜单前三名被Google包揽,展现了其在长窗口与多模态整合上的深厚积累。


  • Gemini Deep Research (Agent) 以49.41的高分断层第一。作为专门设计的智能体,它在Cov. (Coverage, 证据覆盖率) 上拿到了52.84的高分,说明它搜得最广、查得最全。
  • Gemini 3 Pro作为非Agent的单体模型,拿到了44.68 分。它是目前最强的“即插即用”模型,如果你没有资源搭建复杂的Agent框架,它就是首选。


最大的黑马:DeepSeek-V3.2的“盲打”奇迹


请注意榜单的第4名。DeepSeek-V3.2(43.71分)。这是一个极具冲击力的结果。请注意它的标签:Single-Modal (单模态) 和 Offline (离线)


  • 这意味着什么? 它是在“看不见图”且“不能上网”的情况下,仅凭模型内部的推理能力和训练数据,击败了几乎所有联网的GPT系列和Claude系列模型。
  • 得分拆解:它靠极高的FLAE (写作分) 和逻辑推理能力硬抗了VEF的低分(因为看不见图)。这证明了其基座模型(Base Model)的推理密度极高,是当之无愧的开源(或低成本)之光。


偏科的专家:GPT系列的滑铁卢与反转


您可能会惊讶地发现,GPT-5.2竟然掉到了第18名(32.76分),GPT-4o甚至在第24名


  • 为什么总分低? 看一眼Cov. (覆盖率) 数据:GPT-5.2只有1.43。这说明在这次测试的严格设定下,它几乎没有成功检索到足够的外部网页证据,导致TRACE分数雪崩。
  • 为什么还推荐它? 别被总分骗了。看它的VEF (视觉保真度) 得分高达46.43,位居所有模型前列;其Acc. (数据准确性) 在同类中也表现不俗。
  • 结论:GPT系列在“搜集资料”上表现不佳(可能是联网工具策略过于保守),但在“阅读复杂图表”和“不胡说八道”上,它依然是该领域的专家。如果您只需分析本地上传的复杂科研图表,它依然是首选。


智能体(Agent)vs. 单体模型(LLM)


对比Rank 1 (Gemini Agent) 和Rank 2 (Gemini LLM),我们可以看到Agent架构的真实价值:


  • 覆盖率提升:Agent架构将证据覆盖率(Cov.)从41.85提升到了52.84。
  • 代价:Agent的复杂流程并没有显著提升视觉理解(VEF甚至略有下降,35.71 vs 46.43)。
  • 启示:Agent能帮你找到更多资料,但并不能提高模型“读图”的准确率,甚至可能因为链路过长引入噪音。


深度洞察:光鲜报告背后的隐忧


除了排名,研究者通过深入的数据分析,挖掘出了三条发人深省的规律。这些发现打破了我们对“模型越大越好”或“多模态一定更强”的刻板印象。


发现一:视觉能力是一把双刃剑


您可能认为,给模型加上眼睛(视觉能力),它的表现一定比盲人(纯文本模型)好。但实验数据告诉我们:未必


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


  • 数据对比:对比同家族的Qwen 3(纯文本)和Qwen 3-VL(多模态),引入视觉后,分数并没有单调上涨。
  • 原因分析:视觉模块引入了新的错误源。具体来说,多模态模型在细节提取(DTE)上的错误率反而上升了。
  • 失败模式:模型经常读错细微的文字(Literals),比如把图表上的“2023”读成“2025”,或者把小数点点错位置。
  • 后果:这种视觉上的微小误读,会成为错误的“前提”,被模型当成铁证,进而通过推理链条放大,导致整篇报告的结论南辕北辙。只有当图片提供了不可替代的关键证据且模型读对时,视觉才是加分项;否则,它就是噪音。


发现二:端到端深度研究是系统级能力,而非写作技巧


"Strong prose alone does not guarantee faithful evidence use." 许多模型(如GPT-5.2)能写出流畅优美的文章,甚至在视觉识别(VEF)上拿高分,但在引用规范性(TRACE)上却表现平平。这说明,写作能力严谨的循证能力是两回事。模型往往为了追求文章的通顺,牺牲了证据的准确性。


发现三:智能体的“长链路漂移”


深度研究代理(Agent)通常被认为比单一模型更强,因为它们可以反复搜索、自我修正。但实验发现了一个反直觉的现象:


  • 实体错位(Entity Mis-id)激增:相比于基础模型(Gemini Pro),对应的代理版本(Gemini Deep Research)在实体识别错误上竟然增加了4.3倍
  • 为什么? 这是一个典型的“长电话效应”。代理在进行多轮搜索、总结摘要、再搜索的过程中,信息经过了多次转手。
  • 典型案例:模型一开始正确识别了A公司的财报数据,但在第三轮搜索整合B公司的市场份额时,混淆了主语,最终在报告里张冠李戴,把A的数据安到了B头上。
  • 启示:工具的使用虽然提升了证据的覆盖面,但如果不解决长上下文中的信息锚定问题,推理链越长,出错的概率反而越大。


领域分析:术业有专攻


在不同的任务领域,各家模型的表现也大相径庭。


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


  • 日常琐事(Daily Regime)
  • 面对生活中的截图等“充满噪声”的图片,Gemini 2.5 FlashGPT-5.2表现最稳定。
  • Claude Opus在需要给出建议和解释的类别上非常有竞争力。
  • 硬核研究(Research Regime)
  • 在环境科学、能源等需要大量解读复杂图表的领域,Qwen 3 VL展现出了惊人的实力,这与其在图表阅读上的特化训练有关。
  • 在计算机科学和数据科学等结构化技术领域,GPT-5.2达到了顶峰。


案例分析:从实战看“高分报告”的严苛门槛


为了更直观地理解MMDR-Bench的评分标准,我们深入剖析论文附录中两个具体的计算机科学与数学工程领域的高分案例。这两个案例清晰地展示了,在解决博士级难度的图表推理任务时,模型是如何得分,又是因何失分的。


Grok-4 (Fast Reasoning):强推理,但在引用上栽了跟头


  • 任务背景:边缘端大模型部署分析。要求模型根据提供的GPT架构图和Amdahl定律图表,计算延迟预算并提出优化策略。


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


  • 表现亮点(Score: 82)
  • 视觉精准:Grok-4准确识别了GPT风格的架构图和注意力机制图示,没有出现幻觉。
  • 硬核计算:它正确选择了Amdahl定律公式,并根据图表数据进行了准确的数学推导,得出了“即使加速8倍,总加速比也只有1.54x”的正确结论。
  • 决策可行:基于计算结果,它提出了INT4量化等切实的部署建议。
  • 扣分点(为何没能更高?)
  • 引用源瑕疵:尽管大部分引用有效,但评审发现其参考文献列表中包含了“一小部分来自非授权来源的链接”(unauthorized sources)。在MMDR-Bench的TRACE标准下,引用源的权威性是硬指标,非官方或低质量的博客来源导致了扣分。


Gemini-2.5-Pro:图文与数学的完美对齐


  • 任务背景:二分类器校准。要求模型结合混淆矩阵和ROC曲线图,分析类别不平衡下的指标变化。


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选?OSU & Amazon最新


结语


这篇论文告诉我们,评价一个AI是否“聪明”,不能只看它聊得是否开心,更要看它做研究时是否严谨


在AI能够完美通过MMDR-Bench的考验之前,当您阅读一份由AI生成的包含复杂图表分析的深度报告时,请务必保持一份审慎,去点开那些引用链接,看一看它是不是真的读懂了那张图。


文章来自于“AI修猫Prompt”,作者 “AI修猫Prompt”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0