AI技术研报-这里有最前沿的人工智能技术解读

突破开放世界移动操作！首个室内移动抓取多模态智能体亮相，微调模型真实环境零样本动作准确率达 90%

在家庭服务机器人领域，如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作，一直是学界和工业界的核心挑战。

来自主题: AI技术研报

5764 点击 2025-06-21 16:56

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

“边看边画，边画边想”，让大模型掌握空间思考能力，结果直接实现空间推理任务新SOTA。

来自主题: AI技术研报

5776 点击 2025-06-21 16:48

打破推荐系统「信息孤岛」！中科大与华为提出首个生成式多阶段统一框架，性能全面超越 SOTA

在信息爆炸的时代，推荐系统已成为我们获取资讯、商品和服务的核心入口。无论是电商平台的 “猜你喜欢”，还是内容应用的信息流，背后都离不开推荐算法的默默耕耘

来自主题: AI技术研报

5761 点击 2025-06-21 12:53

AI App 2024年赚了12亿美元，谁在给AI氪金？

2024年全球AI移动应用收入达12亿美元，同比猛增179%。图片/视频生成应用主要由亚洲市场驱动，细分需求兴起；ChatBot领域ChatGPT占据主导，但套壳产品表现意外强劲，用户分层明显（高知男性与年轻女性为主）。AI赋能生产力工具收入显著增长34.9%，但大厂优势依旧显著。

来自主题: AI技术研报

6072 点击 2025-06-21 11:32

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

生成图像这件事，会推理的AI才是好AI。举个例子，以往要是给AI一句这样的Prompt：（3+6）条命的动物。我们人类肯定一眼就知道是猫咪，但AI的思考过程却是这样的：

来自主题: AI技术研报

7191 点击 2025-06-20 16:08

人人皆可创作音乐！腾讯AI Lab开源音乐生成大模型SongGeneration

6 月 16 日，腾讯 AI Lab 推出并开源 SongGeneration 音乐生成大模型，专注解决音乐 AIGC 中音质、音乐性与生成速度这三大共性难题

来自主题: AI技术研报

7224 点击 2025-06-20 15:50

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

预训练模型能否作为探索新架构设计的“底座” ？最新答案是：yes！

来自主题: AI技术研报

8209 点击 2025-06-20 15:38

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题，严重制约了AI模型真实能力的展现。

来自主题: AI技术研报

7186 点击 2025-06-20 15:23

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

人人都绕不开的推荐系统，如今正被注入新的 AI 动能。随着 AI 领域掀起一场由大型语言模型（LLM）引领的生成式革命，它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力，开始重塑各领域的传统技术栈。

来自主题: AI技术研报

7658 点击 2025-06-20 11:08

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

来自主题: AI技术研报

7232 点击 2025-06-20 10:53

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

生成模型会重现识别模型的历史吗？

来自主题: AI技术研报

7988 点击 2025-06-20 09:54

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

大语言模型解决不等式证明问题时，可以给出正确答案，但大多数时候是靠猜。推理过程经不起推敲，逻辑完全崩溃。

来自主题: AI技术研报

5834 点击 2025-06-20 09:48

能自我提升的Agent需要内在的元认知学习能力。| 剑桥ICML最新

剑桥大学和范德夏尔实验室在 ICML 2024 上发表的立场论文，直接挑战了当前Agent开发的核心假设：我们一直在用错误的方式让Agent"自我改进"。

来自主题: AI技术研报

5660 点击 2025-06-20 09:39

美团提出首个语音交互GUI智能体，端到端语音训练能力优于传统文本训练

只需要动动嘴就可以驱动GUI代理？

来自主题: AI技术研报

6843 点击 2025-06-19 17:07

田渊栋：连续思维链效率更高，可同时编码多个路径，“叠加态”式并行搜索

AI也有量子叠加态了？

来自主题: AI技术研报

7492 点击 2025-06-19 15:25

ChatGPT上瘾，大脑萎缩47%！MIT祭出206页92图超长报告

AI上瘾堪比「吸毒」！MIT最新研究惊人发现：长期依赖大模型，学习能力下降、大脑受损，神经连接减少47%。AI提高效率的说法，或许根本就是误解！

来自主题: AI技术研报

6434 点击 2025-06-19 15:04

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

普林斯顿大学和Meta联合推出的新框架LinGen，以MATE线性复杂度块取代传统自注意力，将视频生成从像素数的平方复杂度压到线性复杂度，使单张GPU就能在分钟级长度下生成高质量视频，大幅提高了模型的可扩展性和生成效率。

来自主题: AI技术研报

6468 点击 2025-06-19 12:07

斯坦福最新研究：硅谷的AI创业潮，其实是一场大型的资源错配

2025年1月到5月间，斯坦福大学的研究团队完成了一项本应在AI热潮开始时就进行的调查。他们采访了1500名美国员工和52名AI专家，评估了104个职业中的844项具体任务。

来自主题: AI技术研报

6747 点击 2025-06-19 11:40

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

为此，香港中文大学、字节跳动Seed和斯坦福大学研究团队出手，提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。

来自主题: AI技术研报

6049 点击 2025-06-19 11:31

港科广等发布首个医学世界模型！精准模拟肿瘤演化，规划治疗方案

医学世界模型（MeWM）是一种创新的AI系统，能够模拟疾病演变并预测不同治疗方案下的肿瘤变化。通过生成术后肿瘤图像，可以帮助医生在术前评估治疗效果，优化治疗方案，显著提升临床决策的准确性，为精准医疗提供了有力支持。

来自主题: AI技术研报

5788 点击 2025-06-19 11:18

刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

OpenAI发布最新论文，找了到控制AI“善恶”的开关。

来自主题: AI技术研报

7407 点击 2025-06-19 11:09

20个样本，搞定多模态思维链！UCSC重磅开源：边画框，边思考

GRIT能让多模态大语言模型（MLLM）通过生成自然语言和图像框坐标结合的推理链进行「图像思维」，仅需20个训练样本即可实现优越性能！

来自主题: AI技术研报

7242 点击 2025-06-19 11:03

美7000万人或被取代，Agent光速卷入职场！北大校友、杨笛一新作

AI想替代谁？谁愿意被替代？北大校友的研究首次揭示数据真相！

来自主题: AI技术研报

7038 点击 2025-06-19 10:55

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加，注意力运算（Attention）的时间开销逐渐成为主要开销。

来自主题: AI技术研报

7116 点击 2025-06-19 10:47

未来「含人量」多少，决定这工作值多少钱？斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

你敢想象吗？你的工作“含人量”多少，决定你值多少钱？“含人量”是我首次创造的一个中文通俗词汇，用来转译论文核心概念“Human Agency Scale”，以后谁要引用，请注明出处是这里哈~

来自主题: AI技术研报

8077 点击 2025-06-19 10:31

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展，直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

来自主题: AI技术研报

8582 点击 2025-06-19 10:13

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

GSPN是一种新型视觉注意力机制，通过线性扫描和稳定性-上下文条件，高效处理图像空间结构，显著降低计算复杂度。通过线性扫描方法建立像素间的密集连接，并利用稳定性-上下文条件确保稳定的长距离上下文传播，将计算复杂度显著降低至√N量级。

来自主题: AI技术研报

6331 点击 2025-06-18 16:41

国产芯片比英伟达整体效率更高！？华为 CloudMatrix384 超节点首曝论文，跑 DeepSeek 效率超越英伟达

今年 4 月，围绕“华为芯片效率是否超越国际主流 AI 芯片和架构”的问题，网上曾引发一场激烈争论。

来自主题: AI技术研报

6642 点击 2025-06-18 16:38

告别玄学选LLM！弗吉尼亚理工选型框架入选ICML 2025

还在靠“开盲盒”选择大模型？来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM

来自主题: AI技术研报

8216 点击 2025-06-18 15:39

统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子

当 AI 放下海德格尔的锤子时，意味着机器人已经能够熟练使用工具，工具会“隐退”成为本体的延伸，而不再是需要刻意思考的对象。

来自主题: AI技术研报

8274 点击 2025-06-18 15:35

AI技术研报-这里有最前沿的人工智能技术解读

突破开放世界移动操作！首个室内移动抓取多模态智能体亮相，微调模型真实环境零样本动作准确率达 90%

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

打破推荐系统「信息孤岛」！中科大与华为提出首个生成式多阶段统一框架，性能全面超越 SOTA

AI App 2024年赚了12亿美元，谁在给AI氪金？

国产SOTA新模型精准get“画(3+6)条命的动物” | 开源

人人皆可创作音乐！腾讯AI Lab开源音乐生成大模型SongGeneration

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜ 斯坦福&伯克利&MIT

能自我提升的Agent需要内在的元认知学习能力。| 剑桥ICML最新

美团提出首个语音交互GUI智能体，端到端语音训练能力优于传统文本训练

田渊栋：连续思维链效率更高，可同时编码多个路径，“叠加态”式并行搜索

ChatGPT上瘾，大脑萎缩47%！MIT祭出206页92图超长报告

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

斯坦福最新研究：硅谷的AI创业潮，其实是一场大型的资源错配

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

港科广等发布首个医学世界模型！精准模拟肿瘤演化，规划治疗方案

刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

20个样本，搞定多模态思维链！UCSC重磅开源：边画框，边思考

美7000万人或被取代，Agent光速卷入职场！北大校友、杨笛一新作

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

未来「含人量」多少，决定这工作值多少钱？斯坦福发布2025年重磅AI「工作内参」【附原版PDF】

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

国产芯片比英伟达整体效率更高！？华为 CloudMatrix384 超节点首曝论文，跑 DeepSeek 效率超越英伟达

告别玄学选LLM！弗吉尼亚理工选型框架入选ICML 2025

统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT