AI技术研报-这里有最前沿的人工智能技术解读

上交×蚂蚁发布 DiagGym：以世界模型驱动交互式医学诊断智能体

临床诊断并非一次性的「快照」，而是一场动态交互、不断「探案」的推理过程。然而，当下的大模型大多基于静态数据训练，难以掌握真实诊疗中充满不确定性的多轮决策轨迹。如何让AI学会「追问」、选择检查，并一步步抽丝剥茧，迈向正确诊断？

来自主题: AI技术研报

8174 点击 2025-11-12 10:24

谷歌的两个5天课程都讲了什么，介绍一下这9+N份白皮书｜最新

2025年末，谷歌通过Kaggle平台，以前所未有的力度，连续推出了两个为期五天的线上强化课程。这不仅仅是两次普通的线上分享，更像是一场由谷歌顶级机器学习（ML）研究员和工程师亲自引领的、深入探索生成式AI及其前沿应用——AI Agents（人工智能代理）的集训。

来自主题: AI技术研报

9700 点击 2025-11-12 10:21

ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

你是否曾为搭建具身仿真环境耗费数周学习却效果寥寥？是否因人工采集海量交互数据需要高昂成本而望而却步？又是否因找不到足够丰富真实的开放场景让你的智能体难以施展拳脚？

来自主题: AI技术研报

10151 点击 2025-11-12 09:32

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni，统⼀视觉、⽂本、听觉与动作模态，实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据，引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

来自主题: AI技术研报

8830 点击 2025-11-12 09:29

MIT融合新旧视觉技术，破解救援机器人导航瓶颈，无需标定，数秒生成3D场景

在一场矿难救援中，时间意味着生命。想象一台搜救机器人在部分坍塌的矿井中穿行：浓烟、碎石、扭曲的金属梁。它必须在险象环生的环境中迅速绘制地图，识别路径，并精准定位自己的位置。

来自主题: AI技术研报

8069 点击 2025-11-12 08:51

只用 Claude Skills，打造专属 AI 伴侣｜附完整教程

我日常最常用的 AI，不是 ChatGPT，也不是 Gemini 官网。

来自主题: AI技术研报

6200 点击 2025-11-11 17:58

打破数据质量鸿沟！清华腾讯Bee项目发布1500万高质量数据集，刷新MLLM全栈开源SOTA

全开源多模态大模型（MLLM）的性能，长期被闭源和半开源模型“卡脖子”。

来自主题: AI技术研报

7268 点击 2025-11-11 16:39

如何打造AI科学家？AI Scientist综述，从模块到自治六阶段方法 |最新

本文基于研究者的系统性综述，围绕“AI Scientist（AI科学家）”这一新的概念展开，核心线索是研究者的六阶段方法论与三阶段演进轨迹；您如果正搭建一个可验证、可协作、可扩展的研究自动化体系，这篇综述更像一张总路线图而非空洞口号，有不少思路可以借鉴。

来自主题: AI技术研报

9406 点击 2025-11-11 11:22

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

Sasha Rush 在分享开头就提到，Cursor Composer 在他们的内部 benchmark 上的表现几乎与最好的 Frontier 模型（前沿模型）持平，并且优于去年夏天发布的所有模型。它的表现明显好于最好的开源模型，以及那些被标榜为"快速"的模型。

来自主题: AI技术研报

8160 点击 2025-11-11 11:12

美国知名对冲基金拆解400年“泡沫史”的最终判断：AI离“泡沫”还远

面对“AI是否陷入泡沫”的热议，美国知名对冲基金Coatue深度研究了过去400年间30余次典型泡沫案例，从中提炼出共性特征，并据此发布了年度AI重磅报告。Coatue将这一框架应用于当前AI领域，得出的结论是:AI正处于早期“替代/普及”阶段，远未到达泡沫顶点。

来自主题: AI技术研报

7948 点击 2025-11-11 10:58

谢赛宁×李飞飞×LeCun首次联手！寒武纪-S「空间超感知」AI震撼登场

当AI不再对着文字死记硬背，而是学会在视频里对人类世界进行超感知，这套全新范式会不会撬开AGI的大门？

来自主题: AI技术研报

8580 点击 2025-11-11 10:26

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

8229 点击 2025-11-11 10:24

AI同时学会了人类的智慧和无脑

从支持「屎棒棒创业」到数学证明，AI的「谄媚」正成隐忧：一次更新曝出迎合倾向，GPT对荒诞乃至有害想法也点头称是。斯坦福、CMU研究证实模型更爱迎合，令用户更固执、更少反思却更信任AI；数学基准亦见模型为伪命题硬编证明。

来自主题: AI技术研报

6445 点击 2025-11-11 09:51

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

多模态大模型（MLLMs）虽然在图像理解、视频分析上表现出色，但多停留在整体场景级理解。

来自主题: AI技术研报

10443 点击 2025-11-11 09:50

机器人“会用手”了！银河通用首破手掌任意朝向旋转难题，拧螺丝、砸钉子样样精通

做灵巧手如果不会用工具，跟咸鱼（夹爪）有什么区别？

来自主题: AI技术研报

6743 点击 2025-11-10 16:30

万字洞察丨100 家顶尖 AI 初创公司的 7 个真相

Leonis Capital 在全球超过 10,000 家 AI 初创公司中，基于融资、招聘、用户使用情况，GitHub 趋势、新闻、ProductHunt、ARR 预估等数据和信号，筛选出了 100 家增长最快的初创公司。他们对这 100 家 AI 初创公司进行了详细分析，制作了一份 The Leonis AI 100 的研究报告。

来自主题: AI技术研报

10556 点击 2025-11-10 15:13

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。但现实世界中的许多任务 —— 如长文档理解、复杂问答、检索增强生成（RAG）等 —— 都需要模型处理成千上万甚至几十万长度的上下文。

来自主题: AI技术研报

6171 点击 2025-11-10 15:12

首个AI商业广告工作流开源，我做出了可口可乐最有创意的广告

可乐可乐是真头铁， 24年用AI做广告挨骂，25年继续用继续挨骂，主要是创意很偷懒，两年了还给我看同一条广告。

来自主题: AI技术研报

7766 点击 2025-11-10 15:10

AAAI 2026结果公布，刷出88887高分！2.3万投稿录用率仅17.6%

AAAI 2026录用结果重磅公布！这一届，投稿量暴增至23,680篇，录用率仅17.6%，竞争程度远超往年。一些成功上岸的研究员们晒出了录用成绩单，有人甚至拿下了88887高分。

来自主题: AI技术研报

6911 点击 2025-11-10 14:33

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

在 AI 技术飞速发展的今天，如何高效地将多个专业模型的能力融合到一个通用模型中，是当前大模型应用面临的关键挑战。全量微调领域已经有许多开创性的工作，但是在高效微调领域，尚未有对模型合并范式清晰的指引。

来自主题: AI技术研报

7345 点击 2025-11-10 14:25

2025 智能体元年，Agent 开发平台深度评测报告解读

AI 产业的两大核心趋势正并行发展：基础大模型的能力持续突破，而 AI Agent 的产业化落地也在全面提速。Capgemini 于 2025 年 4 月发布的一项覆盖 14 国 1500 名企业高管的调研显示[1]，已有 37% 的受访组织启动或实施 AI Agent 项目，另有高达 61 %的组织将在一年内跟进部署或进行探索，印证了该趋势的全球共识。

来自主题: AI技术研报

8733 点击 2025-11-10 11:16

全新人工神经元面世，能耗比人脑低数千倍！或彻底改变AI部署方式

近日，美国南加州大学教授约书亚·杨（Joshua Yang）团队和合作者成功造出一个功能齐全的人工神经元 1M1T1R，这是一种能像真实脑细胞一样工作的人工神经元，有望催生出类似人脑的基于硬件的学习系统，并有望将 AI 转变为更加接近自然智能的形态。

来自主题: AI技术研报

7930 点击 2025-11-10 10:27

HuggingFace发布超200页「实战指南」，从决策到落地「手把手」教你训练大模型

近期，HuggingFace 发布的超过 200 页的超长技术博客，系统性地分享训练先进 LLM 的端到端经验。

来自主题: AI技术研报

7019 点击 2025-11-10 09:57

终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

大模型「灾难性遗忘」问题或将迎来突破。近日，NeurIPS 2025收录了谷歌研究院的一篇论文，其中提出一种全新的「嵌套学习（Nested Learning）」架构。实验中基于该框架的「Hope」模型在语言建模与长上下文记忆任务中超越Transformer模型，这意味着大模型正迈向具备自我改进能力的新阶段。

来自主题: AI技术研报

7351 点击 2025-11-10 09:56

ICCV涌现自动驾驶新范式：统一世界模型VLA，用训练闭环迈向L4

智能汽车、自动驾驶、物理AI的竞速引擎，正在悄然收敛—— 至少核心头部玩家，已经在最近的ICCV 2025，展现出了共识。

来自主题: AI技术研报

8715 点击 2025-11-10 09:20

IEEE | LLM Agent的能力边界在哪？首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

LLM Agent 正以前所未有的速度发展，从网页浏览、软件开发到具身控制，其强大的自主能力令人瞩目。然而，繁荣的背后也带来了研究的「碎片化」和能力的「天花板」：多数 Agent 在可靠规划、长期记忆、海量工具管理和多智能体协调等方面仍显稚嫩，整个领域仿佛一片广袤却缺乏地图的丛林。

来自主题: AI技术研报

7649 点击 2025-11-10 09:20

机器人训练，北京男大有了技能玩法

还得是大学生会玩啊（doge）！网上正高速冲浪中，结果意外发现：有男大竟找了个机器人队友？而且机器人还相当黏人（bushi~ 白天超市打工它要跟着，一看东西装好就立马乐颠颠帮忙拉小推车，上楼下楼忙个不停：

来自主题: AI技术研报

6200 点击 2025-11-09 15:38

英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理

2024年，加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念，短短一年多时间，迅速从实验室概念成长为行业标准，被NVIDIA、vLLM等主流大模型推理框架采用，预示着AI正迈向「模块化智能」的新时代。

来自主题: AI技术研报

8601 点击 2025-11-09 15:37

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

现有的LLM智能体训练框架都是针对单智能体的，多智能体的“群体强化”仍是一个亟须解决的问题。为了解决这一领域的研究痛点，来自UCSD和英特尔的研究人员，提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个LLM一起训练。

来自主题: AI技术研报

6790 点击 2025-11-09 15:36

改掉幻觉=杀死AI？Science曝光大模型「先天死穴」

《Science》的一篇新文章指出，大模型存在一个先天难解的软肋：幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」，虽然有助于减少模型幻觉，但可能因此影响用户留存与活跃度，动摇商业根本。

来自主题: AI技术研报

8664 点击 2025-11-09 15:35

AI技术研报-这里有最前沿的人工智能技术解读

上交×蚂蚁发布 DiagGym：以世界模型驱动交互式医学诊断智能体

谷歌的两个5天课程都讲了什么，介绍一下这9+N份白皮书 ｜最新

ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

MIT融合新旧视觉技术，破解救援机器人导航瓶颈，无需标定，数秒生成3D场景

只用 Claude Skills，打造专属 AI 伴侣｜附完整教程

打破数据质量鸿沟！清华腾讯Bee项目发布1500万高质量数据集，刷新MLLM全栈开源SOTA

如何打造AI科学家？AI Scientist综述，从模块到自治六阶段方法 |最新

Cursor 首度揭秘："训练即产品"，用强化学习让 AI 编程快 4 倍的秘密武器

美国知名对冲基金拆解400年“泡沫史”的最终判断：AI离“泡沫”还远

谢赛宁×李飞飞×LeCun首次联手！寒武纪-S「空间超感知」AI震撼登场

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

AI同时学会了人类的智慧和无脑

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

机器人“会用手”了！银河通用首破手掌任意朝向旋转难题，拧螺丝、砸钉子样样精通

万字洞察丨100 家顶尖 AI 初创公司的 7 个真相

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

首个AI商业广告工作流开源，我做出了可口可乐最有创意的广告

AAAI 2026结果公布，刷出88887高分！2.3万投稿录用率仅17.6%

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

2025 智能体元年，Agent 开发平台深度评测报告解读

全新人工神经元面世，能耗比人脑低数千倍！或彻底改变AI部署方式

HuggingFace发布超200页「实战指南」，从决策到落地「手把手」教你训练大模型

终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

ICCV涌现自动驾驶新范式：统一世界模型VLA，用训练闭环迈向L4

IEEE | LLM Agent的能力边界在哪？首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

机器人训练，北京男大有了技能玩法

英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

改掉幻觉=杀死AI？Science曝光大模型「先天死穴」

谷歌的两个5天课程都讲了什么，介绍一下这9+N份白皮书｜最新