4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!
4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!“我真的厌倦了看到那些急于求成的科技初创公司,为了讨好风投而在数据上撒谎,还贴上‘SOTA’的标签。”有网友吐槽。 事情源于高人气开源智能体记忆项目 Mem0 在今年 4 月底发布的一篇论文。
“我真的厌倦了看到那些急于求成的科技初创公司,为了讨好风投而在数据上撒谎,还贴上‘SOTA’的标签。”有网友吐槽。 事情源于高人气开源智能体记忆项目 Mem0 在今年 4 月底发布的一篇论文。
2025年被视为 AI Agent元年,各家科技巨头也纷纷出手,谁都不想错失这个火热的赛道。
刚刚,一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。 使用该框架,他们还构建了一个旗舰模型 OpenCUA-32B,其在 OSWorld-Verified 上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了 GPT-4o。
GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。
之前在X上看到过一个新加坡版的DeepSeek,叫Agnes AI,主打一站式Agent空间。 但当时我自己搞产品焦头烂额的,随手点开看了看,就放下了。 后来在Product Hunt上又看到这款产品,以及各种海外平台时而刷到。
近年来,大语言模型(LLM)已展现出卓越的通用能力,但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境,模型无法实时调整其内部参数,这一根本性瓶颈日益凸显。
面对对抗攻击,具身智能体除了被动防范,也能主动出击! 在人类视觉系统启发下,清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。
智能体元年,处处都是智能体。甚至刚落幕的ISC.AI 2025第十三届互联网安全大会,主题直接就是“ALL IN AGENT”。
MiniMax 现在正在主动加速「从功能到可流通生产力」的进程。他们正在举办一场总奖金高达 15 万美元的 AI Agent 全球挑战赛,核心理念是「让自己的 Idea + Agent 成为生产力,成为市场中的硬通货」。Remix 则是官方重点推荐的参赛入口之一。
「一只手有几根手指?」 这个看似简单的问题,强如 GPT-5 却并不能总是答对。 今天,CMU 博士生、英伟达 GEAR(通用具身智能体研究)团队成员 Tairan He(何泰然)向 GPT-5 询问了这个问题,结果模型回答错了。