
超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench
超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench刚刚,由上海交通大学人工智能学院Agents团队提出的AI专家智能体,在OpenAI权威基准测试MLE-bench中击败了业界AI顶流微软,夺冠登顶!
刚刚,由上海交通大学人工智能学院Agents团队提出的AI专家智能体,在OpenAI权威基准测试MLE-bench中击败了业界AI顶流微软,夺冠登顶!
大家好,我是袋鼠帝 说实话,一直以来,都在探索如何用我制作的AI Agent(智能)体变现 我之前大多数的Agent成交都是在微信私域里面。
本文由上海 AI Lab、中国科学技术大学和上海交通大学联合完成。主要作者包括中国科学技术大学硕士生杨靖懿、上海交通大学本科生邵帅
大模型可以不再依赖人类调教,真正“自学成才”啦?新研究仅通过RLVR(可验证奖励的强化学习),成功让模型自主进化出通用的探索、验证与记忆能力,让模型学会“自学”!
如果你是程序员,又对股票感兴趣,那八成动过写个脚本的念头。这个想法的初版通常很简单:找个免费的股票数据 API,用 Python 拉取 K 线,算一下 MACD 或者 RSI 指标,然后写几个 if/else 来触发买入卖出信号。测试几次,发现收益还不错,特容易兴奋上头。
在传统工具主导的设计流程中,从 Figma 或 Sketch 起稿,到开发团队手工编码,哪怕是一个简单的网页原型,通常也要经过多轮反复沟通与来回修改,整个流程周期以“周”为单位计算。而 Readdy.ai 的出现,正推动这个流程进入以“秒”计时的 AI 原生时代。
Agent Infra是AI时代的新热点,涉及为Agent重建基础设施以适应其与人类的根本差异,包括交互方式、学习模式、责任界定等。核心是创建安全环境如E2B沙盒和Browserbase浏览器工具,支持Agent反馈循环和多任务协作,预计Browser Use市场将大幅增长,开发者需聚焦差异场景提升价值。
在经过深度思考后,我有了一个大胆的猜想:我们一直在用错误的框架理解它,大家都把它当作"更好的编程工具",但我越用越觉得,这根本不是一个编程工具,而是一个披着终端外衣的通用 AI agent。正好周末看了Anthropic 产品负责人 Michael Gerstenhaber 的最新一期访谈,
最近,Kimi Researcher(深度研究)开启内测。根据官方介绍,其定位并非一个简单的“搜索工具”,而是一个能够生成带引用来源的深度研究报告的AI Agent。
这是我关于「AI Native 系列」的第二篇文章,主题是:行动闭环。在上一篇里,我讲了什么样的产品才算得上真正的 AI Native,分享了我对 MCP 协议、AI 架构原生性和任务闭环的理解。