
大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源
大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。
当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。
2025年7月17日,在GenAI Assembling 第五期硅谷Meetup上,最近火热的明星AI Agent 公司Genspark、Lovart、和Simular.ai的创始人,以及新一代基础设施公司SambaNova的Agent技术负责人,一起讨论了他们在今天AI Agent发展第一线所观察和感受到的一切。
“今年无趣许多。去年有很多特别有想象力的东西,但今年大家都变得极其务实,所有人都在求稳。”一位头部科技公司核心人士在WAIC现场直言不讳地吐槽。
如果你因为太热、太懒、太忙,没法来WAIC;或者是来到展馆,却不知从何逛起,在这份指南里,我们帮你把重点划好了。7月26日,世界人工智能大会(WAIC 2025)在上海世博展览馆开幕。这是一年一度中国AI领域最重要的盛会,没有之一。
今年WAIC上出现了一位新玩家钛动科技,有着8年行业Know-how积累,8万+企业都是他的客户。首次亮相WAIC,就放出大招——首个全球营销AI Agent产品Navos,并非简单的自动化工具,而是在创意、投放、数据分析等营销全链路环节提供赋能。
国内 AI 创企 RockAI 提出的非 Transformer 架构 Yan 2.0 Preview。这个架构极大地降低了模型推理时的计算复杂度,因此可以在算力非常有限的设备上离线运行,比如树莓派。
就在刚刚,Meta 宣布,清华校友赵晟佳(Shengjia Zhao)将正式担任其超级智能实验室( MSL)首席科学家。
前几天逛 X 的时候,偶然间刷到一个声称“彭博终端”的替代品,不仅免费而且开源。
一年一度的 WAIC 在明天就要开始了,在正式开展之前,我跟随官方的 city walk 路线探访了一番。 我探访的这条「AI+智慧生活路线」一共有三个目的地:上海发那科机器人有限公司、上海腾讯滨江大厦、模速空间的智能产品体验中心。
在硅谷最新一波 AI 创业热潮中,有一家公司的成就让我彻底震惊。Swan AI 创下了几乎所有创业常识都认为不可能的记录:仅用 3 位创始人,没有任何员工,在短短 9 周时间内从零客户、零收入,飙升至 80 个付费客户和接近 100 万美元的年化收入。更令人难以置信的是,他们实现这一切没有筹集大量资金,没有雇佣一个销售人员,没有投放一美元广告,甚至没有建立客户支持团队。