700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理
700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理来自加拿大蒙特利尔三星先进技术研究所(SAIT)的高级 AI 研究员 Alexia Jolicoeur-Martineau 介绍了微型递归模型(TRM)。这个 TRM 有多离谱呢?一个仅包含 700 万个参数(比 HRM 还要小 4 倍)的网络,在某些最困难的推理基准测试中,
来自加拿大蒙特利尔三星先进技术研究所(SAIT)的高级 AI 研究员 Alexia Jolicoeur-Martineau 介绍了微型递归模型(TRM)。这个 TRM 有多离谱呢?一个仅包含 700 万个参数(比 HRM 还要小 4 倍)的网络,在某些最困难的推理基准测试中,
MGX,全称 MetaGPT X,是 DeepWisdom 推出的多智能体平台,定位是“24/7 的 AI 开发团队”。它的特别之处在于,你只需要输入需求,系统就会自动生成一支虚拟团队。
本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所(UK AI Security Institute)和艾伦・图灵研究所(Alan Turing Institute)联合进行的一项研究彻底打破了这一传统观念:只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞,且这一结论与模型规模或训练数据量无关。
Sora2爆火之后,随之而来的AI视频领域的新产品。 来自我的好朋友,曹越老师的Sand.ai。凌晨,他们终于上线了他们全新的音画同步视频模型GAGA-1,在人物表演上,我觉得,已经算是现在的TOP级了。
Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看,他们将 LLM 视为其「思维」的改进操作符,实现一系列可能的策略。研究者探究了一种推理方法家族 —— 并行 - 蒸馏 - 精炼(Parallel-Distill-Refine, PDR),
如今,一家初创公司正在为旨在替代人类程序员工作的人工智能代理开发此类工具。其CEO 兼联合创始人Preston Zhou透露,近两年最活跃的 AI 初创企业投资方之一 Andreessen Horowitz ,刚刚领投了这家编程工具公司 Relace2300 万美元的融资。
来自加州大学圣地亚哥分校(UCSD)的华人学者Wanda Hou,与加州大学伯克利分校以及Google Quantum AI合作,在谷歌的Sycamore与Willow超导量子处理器上完成了一次别开生面的实验。
Augie最大的优势就是,能够实现跨平台。也就是说,Augie打造的AI员工可以在不同的系统平台里来回操作。这意味着,人工不用再在五六个系统之间来回切换,Augie自己就能完成很多原本依赖人力的工作。
近期,北京大学、哈尔滨工业大学联合 PsiBot 灵初智能提出首个自我增强的灵巧操作数据生成框架 ——DexFlyWheel。该框架仅需单条演示即可启动任务,自动生成多样化的灵巧操作数据,旨在缓解灵巧手领域长期存在的数据稀缺问题。目前已被 NeurIPS 2025 接受为 Spotlight(入选率约 3.2%)
通用机器人曙光来临!今天,Figure 03正式亮相,专为Helix「大脑」量身打造,冰冷机身有了织物外覆。更值得一得的是,03手掌心配备一颗摄像头,指尖即可感知3克的力。
前不久,我们在收集新闻时,发现一款名为「AI 男子」的女性向 AI 陪伴项目正式上线,主要理念是“创造一个可以与自己喜欢的人交谈的世界”。「AI 男子」由日本公司 Odd Number 打造,上线初始便在 X、Instagram 和 TikTok 等主流社媒全面布局。
很激动。很激动。今天我想分享一个对 Agent 发展来说可能具有里程碑意义的开源项目:OpenAgents。它的目标简单又大胆:让所有 Agent 能像人类一样联网协作。我第一次看到这个项目时,确实有种这事儿该有人干,但真没人干的感觉。
最近,美国多家 AI+医疗明星公司接连传来进展:OpenEvidence(医学知识搜索) 的 ARR 已突破 1000 万美元,每天有上万名医生付费使用;Abridge(临床文档转写) 完成 2.5 亿美元融资;Tempus AI(肿瘤学与精准医疗) 已在纳斯达克上市,市值一度超过 60 亿美元;Hippocratic AI(医疗专属大模型) 估值也已达数十亿美元。
你有没有想过,我们对软件公司的所有认知可能都要被推翻重建?当一家公司用 19 个人就能在一年内做到 1 亿美元 ARR(年度经常性收入)时,当传统需要 500 人团队才能达成的里程碑现在只需要几十人就
昨天,阿里通义千问大语言模型负责人林俊旸在社交媒体上官宣,他们在 Qwen 内部组建了一个小型机器人、具身智能团队,同时表示「多模态基础模型正转变为基础智能体,这些智能体可以利用工具和记忆通过强化学习进行长程推理,它们绝对应该从虚拟世界走向物理世界」。
CBINSIGHTS 最近做了一份《AI Agent Bible》的报告,系统梳理了 AI Agent 的发展前景与未来趋势,提出了面向 2026 年的六大关键预测,并绘制出完整的生态版图,涵盖最值得关注的创业公司、基础设施提供商及快速崛起的营收增长型企业。同时,报告深入解析了市场格局与技术栈的演进,包括 AI Agent 的市场图谱、技术堆栈与收入竞争态势,并通过企业级应用的视角,
当OpenAI与AMD签署涵盖6GW芯片供给+认股权证的合作协议时,更像是一记「战略炸弹」,可能撬动出AI硬件生态的新秩序。对于AMD而言,这是一次从追赶者到潜在「核算力玩家」的重塑,风险与机遇并存。
整场访谈中,Altman 展现出一种难得的坦诚。他承认 OpenAI 在某些测试上输给了竞争对手, 承认提前发布 Sora 是为了让社会接受假视频的冲击, 承认「AI slop」(AI 垃圾) 确实是个问题——但话锋一转,他补充道:人类自己也一直在制造烂活儿。
红杉资本支持的AI 设计初创公司 Visual Electric 宣布,其团队今日将加入搜索初创企业 Perplexity。该公司在官网上表示,团队将并入 Perplexity 新成立的"智能体体验部门"。Perplexity 首席执行官 Aravind Srinivas 在 X 平台发文确认了此次收购。
最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的AI科学家系统。
在9月底的苏黎世电影节上,一位名叫Tilly Norwood的「女演员」亮相,引发媒体和网友热议。「她」由AI制作公司Particle6打造,是全球首批AI生成演员角色之一。Tilly的出现,意味着以Sora为代表的AI视频生成技术正加速渗透,并可能深刻改变影视行业。
近日,谷歌资深工程主管、杰出工程师 Antonio Gulli 在网上公开发布了自己的新书《Agentic Design Patterns(智能体设计模式)》。地址:https://docs.google.com/document/d/1rsaK53T3Lg5KoGwvf8ukOUvbELRtH-V0LnOIFDxBryE/preview?tab=t.0#
Hi,返工早上好。 我是洛小山,和你聊聊 AI 行业思考。 AI Agent 应用的竞争逻辑,正在发生根本性变化。 当许多团队还在死磕提示词优化(PE 工程)时,一些优秀团队开始重心转向了上下文工程
这个国庆,我难得地,拥有了一大段完全属于自己的时间。 没有工作,没有社交,没有KPI。 每天除了打游戏、看小说、电影之外,就是随意的跟AI进行对话,以前更多的是功利性的,必须需要它帮我处理是什么事情,
10 月 9 日凌晨,百灵大模型再度出手,正式发布并开源通用语言大模型 Ling-1T ——蚂蚁迄今为止开源的参数规模最大的语言模型。至此,继月之暗面Kimi K2、阿里 Qwen3-Max 之后,又一位重量级选手迈入万亿参数LLM 「开源俱乐部」。
具体而言,Verlog 是一个多轮强化学习框架,专为具有高度可变回合(episode)长度的长时程(long-horizon) LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则,引入了一系列专门优化手段,从而在任务跨度从短暂交互到数百回合时,依然能够实现稳定而高效的训练。
全人类对AI的依赖越来越严重了,这可能会为我们的大脑带来哪些影响?AI工具的正确打开方式是什么,才能尽可能避免给我们的认知带来负面影响?
您修过Bug吗?在Vibe coding的时代之前,当程序员遇到自己写的 Bug 时,通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时,情况变得复杂得多,我们不清楚 AI 的“思考
写代码的规则,正在被悄悄改写!不再是「人+AI一起盯屏幕」,而是一次性放出十几个任务,让代理们各自跑。真正的门槛,也不再是你能写多少行代码,而是你能不能写清楚需求、明确地拆分任务、快速浏览结果。
今天凌晨,马斯克的大模型独角兽xAI祭出最新视频生成模型Imagine v0.9,免费向所有用户开放。一周前,OpenAI发布了旗舰视频和音频生成模型Sora 2,此次更新或许是马斯克对Sora 2的直接回应。