刚刚,由上海交通大学人工智能学院Agents团队提出的AI专家智能体,在OpenAI权威基准测试MLE-bench中击败了业界AI顶流微软,夺冠登顶!
就在刚刚,一支来自中国高校的团队成功刷榜了OpenAI发布的权威基准测试MLE-bench!
这一次,荣耀属于上海交通大学人工智能学院Agents团队。
他们提出的AI专家智能体「ML-Master」,凭借着29.3%的平均奖牌率,拿下第一!大幅领先微软的RD-Agent(22.4%)和OpenAI展示的AIDE(16.9%)。
MLE-bench是衡量AI在机器学习工程(MLE)中表现的权威基准。它精选Kaggle上的75个相关竞赛,构建多样任务,测试AI在模型训练、数据准备、实验运行等机器学习工程中的能力
这不仅意味着,ML-Master已达到了Kaggle比赛「Grandmaster」(特级大师)级的水平。
而且还标志着,团队在AI自主优化AI领域,迈出了关键一步。
那么,这支学术界的团队,是如何击败业界顶尖团队的呢?
随着人工智能(AI)能力在多个任务中逐步逼近甚至超过人类水平,AI-for-AI(AI4AI)正成为重要发展方向——
利用AI技术自动化和优化AI系统自身的设计、训练和部署。
AI4AI的终极形态是实现具备自主演进能力的AI系统,能够独立完成从问题建模、实验设计到算法探索与验证的全过程。
类似于AlphaGo向AlphaZero的演进路径,该过程经历了从人类辅助训练到完全自主优化的阶段,体现出AI系统在自我演进上的潜力和可行性。
为助力AI4AI发展,上海交通大学人工智能学院Agents团队提出了面向机器学习(Machine Learning)的AI专家智能体「ML-Master」。
项目主页:
https://sjtu-sai-agents.github.io/ML-Master
代码地址:
https://github.com/sjtu-sai-agents/ML-Master
论文地址:
https://arxiv.org/pdf/2506.16499
MLE-bench主页:
https://github.com/openai/MLE-bench
ML-Master通过创新的「探索-推理深度融合」范式,模拟人类专家的认知策略,整合广泛探索与深度推理,显著提升AI4AI性能。
在OpenAI MLE-bench基准测试中,ML-Master以29.3%的平均奖牌率居于榜首,超越微软R&D-Agent(22.4%)和OpenAI展示的AIDE系统(16.9%)。
与先前方法相比,ML-Master在所有评价维度上均全面领先,尤其在中等难度任务上奖牌率提升2.2倍(20.2% vs 9.0%),计算效率翻倍(仅需12小时 vs 基线24小时)。
尽管大型语言模型(LLM)和自主智能体在AI4AI领域取得显著进展,但现有方法仍面临核心挑战:探索与推理的割裂限制了性能提升。
受人类专家开发AI的迭代与探索过程启发,研究团队观察到,高效的AI开发需要探索与推理的有机结合。
其中,探索通过实验和发现获取新洞察,而推理则通过分析已有知识和历史经验进行深度思考。
两者缺一不可——缺乏推理的探索会导致低效的试错,而缺乏探索的推理则容易陷入停滞。
然而,现有AI4AI方法在整合探索与推理时存在以下问题:
因此,如何有效整合探索与推理,让AI系统能够像人类专家一样在解决复杂问题时既能广泛探索又能深度思考,成为AI4AI领域的核心挑战。
ML-Master通过统一的认知框架,模拟人类专家的开发流程,实现了探索与推理的有机协同。
其核心在于平衡多轨迹探索(Balanced Multi-trajectory Exploration)和可控推理(Steerable Reasoning)两大模块,并通过自适应记忆机制(Adaptive Memory)实现两大模块的高效协同。
🔍平衡多轨迹探索
Balanced Multi-trajectory Exploration
🧮可控推理
Steerable Reasoning
🔗核心融合机制:自适应记忆机制
Adaptive Memory
ML-Master通过自适应记忆机制实现了两大模块的深度融合:
ML-Master在OpenAI发布的MLE-bench基准上进行了全面评测。
MLE-bench是OpenAI于2024年10月推出的类人机器学习能力评测基准,旨在衡量大模型是否具备像人类AI工程师一样独立完成项目的能力。
该基准由75个来自Kaggle的真实机器学习任务组成,涵盖从代码编写、模型调参到结果提交的完整流程,是目前最权威、最贴近实际工程场景的AI测试之一。其中不少任务取材自CVPR等国际顶级学术会议。
ML-Master仅在MLE-bench上探索学习900机器小时,即达成Kaggle比赛的Grandmaster级别,获取奖牌数位居20余万Kaggle的参赛者中的259位。
ML-Master在MLE-bench上实现了以下突破:
⚔️全面领先,展现多维度优势
ML-Master在MLE-bench的所有评价维度上均表现卓越。
采用「Bronze+」和「Silver+」指标(表示达到或超过铜牌/银牌阈值),ML-Master展现全面实力:
这样的全面领先展现了ML-Master作为「六边形战士」的综合实力。
🏆卓越适应性,覆盖各个难度等级
ML-Master在不同难度级别任务中展现出压倒性优势:
ML-Master在各难度级别的领先表现体现了其卓越的泛化能力,能够在不同复杂度的挑战中保持高水平的稳定性。
🚀持续进化,潜力巨大
ML-Master展现出强大的自我演进能力,在多轮任务执行过程中持续提升其解决方案质量。
与初始版本相比,最终平均性能提升超过120%。
该系统通过动态结合探索与推理机制,实现了针对任务特性的逐步适应与优化,体现出在AI4AI方向上的稳步推进潜力。
通过可视化展示ML-Master的解决方案树生成过程,可直观看到:
这一过程展示了在性能优化中,探索与推理深度协同的关键作用。
ML-Master的突破验证了AI4AI的巨大潜力,其探索与推理融合的创新框架为AI自主开发和自我演进提供了新的方向。
在OpenAI MLE-bench上的领先表现为AI4AI技术树立了新的标杆。
当前,AI4AI处于快速发展的初期阶段,随着技术的不断进步,AI的智能化、效率和应用前景将持续拓展。
后续,ML-Master也会集成在即将发布的AI辅助学习智能体和AI辅助研究智能体中。
除了推出面向机器学习的专家智能体ML-Master,上海交通大学人工智能学院Agents团队后续将依托上海交通大学AI-X研究院,陆续推出覆盖各领域的专家智能体,构建有影响力的智能体生态体系,为人工智能技术的创新发展与广泛应用注入新动能。
上海交通大学人工智能学院是上海交通大学顺应发展趋势、对接国家战略、服务城市先导产业而成立的实体学院,是举全校之力组建的特区学院。
学院通过高层次定位和全新体制机制,致力于培养中国自主的人工智能卓越人才,为国家高水平科技自立自强提供有力支撑。学院基础雄厚、生源拔尖、设施完备、条件优越,为上海交通大学百年徐汇校区注入了全新的活力。
学院秉承「用人工智能变革世界,用人才变革人工智能」的愿景,以「引育顶尖人才、产出顶尖成果、孵化顶尖企业」为目标,致力于构建全链条创新体系,打造中国人工智能领域的「黄埔军校」,引领中国人工智能发展。
人工智能学院主页:https://sai.sjtu.edu.cn
Agents团队联系方式:sjtu.sai.agents@gmail.com
参考资料:
https://arxiv.org/pdf/2506.16499
文章来自于“新智元”,作者“KingHZ 好困”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md