
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式开发能在开放世界中完成多样任务的通用智能体,是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性,智能体必须具备真正的泛化能力才能稳健应对。然而,现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素,难以准确衡量智能体是否真正「理解」任务,或仅是「记住」了特定解法。
开发能在开放世界中完成多样任务的通用智能体,是AI领域的核心挑战。开放世界强调环境的动态性及任务的非预设性,智能体必须具备真正的泛化能力才能稳健应对。然而,现有评测体系多受限于任务多样化不足、任务数量有限以及环境单一等因素,难以准确衡量智能体是否真正「理解」任务,或仅是「记住」了特定解法。
根据TechCrunch和Semafor等报道,美国财政部正在审查Benchmark Capital对中国初创公司Manus AI的7500万美元投资,据两位知情人士透露,这已经反映出中美之间的科技竞争已经升级到政治层面。
据 TechCrunch 报道,Recraft,这家神秘图像模型背后的初创公司,去年在一个备受尊敬的行业基准测试中击败了 OpenAI 的 DALL-E 和 Midjourney,已完成由 Accel 领投的 3000 万美元 B 轮融资。
推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。
Midjourney v7上线后,配套的角色参考(cref)功能一直迟迟未公布。当时我就有个预感,也在评测文章里说过:这可能是个全新功能的伏笔。果然,今天Midjourney正式公布「Omni-Reference」,即「全向参考」,或翻译成「万能参考」,配合--oref、--ow两个参数使用,这不是Character Reference的v7升级版,而是一次全面的参考进化。
“定焦One”选取了市面上几家热门的AI榜单,分别是AI产品榜、Xsignal、AIGCRank、新榜,综合了月活(MAU)、日活(DAU)、下载量三个比较重要的维度,以及从业者的观点,梳理出1~3月全球AI应用的前二十及国内前十,有了以下发现:
本周,Supabase 的发展已经迎来高光时刻:据《财富》杂志报道, Supabase 宣布完成 2 亿美元 D 轮融资,投后估值 20 亿美元。本轮由 Accel 领投,Coatue、Y Combinator、Craft Ventures 及老股东 Felicis 参投。距离其上一轮 8000 万美元融资仅过去 7 个月,累计融资已达近 4 亿美元。
“模型会有很多,但应用才是王者。” 百度创始人李彦宏在Create 2025大会上直指AI产业重心。面对飞速迭代的大模型和开发者对应用价值持续性的普遍疑虑,他强调找对场景、善用模型工具的应用将超越模型本身。
今天的Agent框架虽然功能强大,但对于没有编程经验的客户服务专业人员来说却过于复杂。这些框架如AutoGen、LangGraph、CrewAI等通常将Agent声明嵌入到复杂的Python代码中,使整体工作流程难以把握,门槛过高。对于仅需构建带有业务逻辑的客服聊天机器人的非技术人员而言,这些框架犹如天书,让他们望而却步。
视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。