AI技术研报-这里有最前沿的人工智能技术解读

Meta蔡志鹏新作VLM³：全面揭示三维视觉的Bitter Lesson

Meta 发布了一项令人震撼的研究工作 VLM³，首次揭示了三维视觉学习的 Bitter Lesson：标准的视觉语言模型 + scale 数据就是最简单有效的范式，针对特定任务的架构、损失函数以及数据增强的设计，甚至是 regression 的 formulation，均不是三维视觉学习的必要条件。

来自主题: AI技术研报

7684 点击 2026-06-09 14:31

我以为宠物翻译器是纯扯淡，直到我翻了几篇论文

第一次看到杭州某家公司的宠物翻译器报道时，我的反应很直接：这不就是新一代智商税吗？

来自主题: AI技术研报

9926 点击 2026-06-09 14:30

ICML 2026 | PhysForge框架来了，让3D资产从静态模型变成可交互对象

在交互式虚拟世界和具身智能快速发展的今天，高质量 3D 资产已经不再只是 “看起来像” 就足够。一个柜门不仅要有柜门的外观，还需要知道绕哪条轴旋转；一个按钮不仅要有按钮的形状，还需要具备 “按下 / 弹起” 的状态；一个抽屉不仅要有完整几何，还需要拥有滑动方向、运动范围、材质和质量等物理属性。该研究已被 ICML 2026 接收。

来自主题: AI技术研报

8274 点击 2026-06-09 14:08

让机器真正理解世界需要一张「认知地图」，中科院发布空间智能综述

AI 已经能看懂图像、生成场景，甚至在虚拟环境中规划行动。

来自主题: AI技术研报

7469 点击 2026-06-09 14:06

人类对Codex的开发不足1%：干货长文汇总Codex最新玩法、技巧和解答！

这两天 Codex 登录的事算是暂时翻篇了。

来自主题: AI技术研报

9594 点击 2026-06-09 10:21

ICML 2026｜文生图模型也会「忘词」？复旦创智等提出Prompt Reinjection，无需训练提升文生图指令遵循能力

近年来，文生图模型的能力快速提升。从 Stable Diffusion 到 FLUX、Qwen-Image，扩散模型已经能够生成高质量图像，也能处理越来越复杂的文本提示。

来自主题: AI技术研报

10215 点击 2026-06-09 10:02

解锁Agent Swarm新潜力，openJiuwen又一力作：多智能体流网络

多智能体协作对于解决复杂问题虽然具有巨大优势，但是其架构本质上易出现错误传播，因为由不正确的工作流生成或单智能体幻觉输出引起的错误会沿着协作链蔓延，影响最终结果。

来自主题: AI技术研报

10640 点击 2026-06-09 09:59

32B超越671B！M-A-P全开源数学定理证明模型OProver，五项评测三项第一

形式化定理证明，一直是LLM公认最严苛的推理试金石，每一步推导都必须通过Lean 4内核的机器验证。

来自主题: AI技术研报

7984 点击 2026-06-09 09:37

Coding Agent 技术全景图：Context Engineering、Subagents 与 Harness，一年范式转移全解析

一年前，行业还在为“从自动补全到 Agent”的进化感到兴奋。然而一年过去，我们不难发现单纯靠“Vibe Coding”和“Prompt 调优”，面对非确定性模型带来的风险和成本问题，显然无法撑起企业级软件开发。

来自主题: AI技术研报

7418 点击 2026-06-09 09:37

一件衣服「隐身」可见光-热成像检测器，清华多模态对抗新方法

清华大学提出一种新型物理对抗方法，利用特殊服装同时干扰可见光和热成像检测。这种服装通过非重叠设计和三维建模优化，可有效躲避RGB-T检测器，促进系统安全性研究。

来自主题: AI技术研报

8389 点击 2026-06-09 09:37

刚刚，Mind Lab开源V1系列模型Preview，749B参数，专为Agent 后训练

过去一个多月，大模型圈依旧热闹。从 GPT-5.5、DeepSeek V4 到 Claude Opus 4.8，后训练正在成为模型能力提升的关键引擎。

来自主题: AI技术研报

7863 点击 2026-06-08 15:29

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

“Full Attention 正在被遗忘”

来自主题: AI技术研报

9508 点击 2026-06-08 15:08

英伟达重新定义文生图最后一步：潜在表征直达4K，高精细节一步生成！

2K 图像 210ms 解码，4K 细节直接生成，传统「解码 + 超分」流水线可能要被重写了。

来自主题: AI技术研报

9900 点击 2026-06-08 14:50

一个8×8矩阵，让大模型「记住」长对话：Mind Lab联合NTU、复旦推出δ-mem，参数仅0.12%

不扩上下文窗口、不换骨干架构、不做全参数微调 —— 只需要一个 8×8 的在线状态矩阵，就能让冻结的 Transformer 拥有真正的长期记忆。

来自主题: AI技术研报

11265 点击 2026-06-08 14:50

北大港大：大模型发现了人类从未想到的纳什均衡算法

大模型开始进入理论计算机科学最核心的问题之一：算法设计。

来自主题: AI技术研报

9413 点击 2026-06-08 14:49

废片也能变大片！北大开源首个「美学照片重构」模型 | ICML'26

北大彭宇新团队提出「美学照片重构」新任务，从摄影教学视频中自动构建数据集AesRecon，并开发两阶段模型AesFormer，通过优化构图、视角与人物姿态，提升照片的美感与艺术表现力。

来自主题: AI技术研报

11399 点击 2026-06-08 14:49

连续入选ICRA最佳论文，RoboScience机器科学如何突破具身智能泛化瓶颈？

在具身智能最难的泛化问题上，他们连续拿出顶会级成果，并把它们沉淀进其创新 VLOA 大模型，推动机器人迈向广阔现实。

来自主题: AI技术研报

10699 点击 2026-06-08 10:45

诺奖得主联手Claude，40轮对话证出12年物理猜想

一道悬了12年没人证出来的物理猜想，诺贝尔物理学奖得主Giorgio Parisi把它交给了Claude，模型几乎自己推出了完整证明。

来自主题: AI技术研报

8133 点击 2026-06-08 10:13

AI真能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与

过去一年，AI 推理模型的使用成本让不少开发者叫苦。

来自主题: AI技术研报

7318 点击 2026-06-08 09:49

ICML 2026｜让 Agent 真正协同作战：GoS 为多智能体推理构建共享信念状态

近年来，大语言模型在数学、代码等任务上的表现不断刷新上限，但到了医疗诊断、故障排查这类真实世界任务里，真正困难的是让多个智能体在不确定的动态环境中持续协作推理。

来自主题: AI技术研报

10038 点击 2026-06-08 09:48

ICML 2026｜FusionRoute：从专家路由到自我修正，一种新的多LLM协作范式

近年来，大语言模型能力的提升，已不再仅仅依赖于更大的模型规模或更多的训练数据。越来越多的研究开始探索另一条路径：通过多个专家模型的协作来完成生成任务。

来自主题: AI技术研报

10322 点击 2026-06-08 09:47

37万次真实会话实测Agent榜单：GPT-5.5High第一，Claude最稳，真实干活能力看这五项核心指标

6月4日，Arena.ai发布Agent Arena排行榜，用373,431次真实会话的数据，给18个主流模型的Agent能力排了个座次。先看总榜。Agent Arena的排名依据是“净改进”（Net Improvement），用因果推断方法算出每个模型相对于随机基线的性能提升幅度。正值代表比随机选择更好，负值说明不如随机。

来自主题: AI技术研报

10183 点击 2026-06-07 14:38

DeepSeek V4做数学证明，500倍成本优势：智能体系统刷新多项纪录

近日，普林斯顿大学的研究团队发布了一篇新论文，提出了一个名为 Goedel-Architect 的智能体框架。他们用的核心模型，是国内开源大模型 DeepSeek-V4-Flash。

来自主题: AI技术研报

9464 点击 2026-06-07 10:56

大晓机器人联合南洋理工打通Physical AI全链路！PhysX-Omni补齐物理AI基建

该论文第一作者为曹子昂，研究方向主要聚焦于 3D AIGC、Physical AI 与具身智能。论文主要合作者包括来自南洋理工大学的李海天、姚润茂、洪方舟、陈昭熹，以及大晓机器人的刘英豪和潘亮。通讯作者为南洋理工大学刘子纬教授。

来自主题: AI技术研报

8775 点击 2026-06-07 10:55

CVPR 2026｜LLM会写3D视觉代码吗？清华联合智源用GeoCodeBench给出答案

近日，来自清华大学智能产业研究院（AIR）的团队联合北京智源研究院（BAAI）、北京大学、南京大学等机构构建了一个基准：GeoCodeBench。这是一个面向 3D 几何计算机视觉的 PhD 级 coding benchmark，

来自主题: AI技术研报

9776 点击 2026-06-07 10:54

重写《给阿嬷的情书》结局：哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

早在 2023 年大模型快速发展期，哈工大张民教授立知大模型团队已开展多模态大模型驱动的视频内容创作智能体研究，并全球首发开源了电影制作智能体 FilmAgent 与动画片生成智能体 Anim-Director，受到国内外智能体研究者与文艺创作者的广泛关注。

来自主题: AI技术研报

8595 点击 2026-06-07 10:51

快手可灵提出VLM-as-Teacher：用测试时在线优化，让视频生成模型学会按规则推理

怎么让VGM学会按规则推理？过去主要有两条路。两条路，一个不动模型，一个只写文字，都没真正解决“执行”问题。为此，城大×快手可灵提出了第三条路：VLM-as-Teacher。

来自主题: AI技术研报

8157 点击 2026-06-06 09:51

超越Figure AI！全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住

一觉睡醒，具身智能公司竟然也开始搞房地产了？！刚刚，大晓机器人联合港中文MMLab发布了一个新项目——Kairos-Homeworld，全球首个实现全屋三维生成与物体级全交互的统一框架。

来自主题: AI技术研报

9088 点击 2026-06-06 09:47

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

来自中国科学院计算技术研究所、ETH Zurich等机构的研究者提出了Fast-SAM3D。该方法直接面向SAM3D的推理链路做训练无关加速，在最大程度保持重建质量的同时，将单对象生成提速最高2.67倍，场景生成提速最高2.01倍。

来自主题: AI技术研报

8368 点击 2026-06-06 09:45

告别盲盒筛选！分子之心发布MMDesign，抗体发现迈入可编程生物工程时代

今日，分子之心正式对外发布全新的AI生物药从头设计平台——MMDesign。

来自主题: AI技术研报

9074 点击 2026-06-05 10:26