AI技术研报-这里有最前沿的人工智能技术解读

给语音模型戴上「眼镜」，错误率降低12.5%！人大CMU最新开源 | AAAI 2025

视觉+语音=更强的语音识别！BPO-AVASR通过优化音视频输入和输出偏好，提升语音识别在真实场景中的准确性，解决了传统方法在噪声、口语化和视觉信息利用不足的问题。

来自主题: AI技术研报

9079 点击 2025-03-24 16:01

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。

来自主题: AI技术研报

8816 点击 2025-03-24 15:47

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

训练狗时不仅要让它知对错，还要给予差异较大的、不同的奖励诱导，设计 RLHF 的奖励模型时也是一样。

来自主题: AI技术研报

11443 点击 2025-03-24 15:33

MCP的技术大变革，下一代「超级空间智能体」的机会～

我最近一段时间，除了处理项目上的一些问题，我将我的大部分时间都在体验目前的MCP成果上，我也在和不同的朋友进行交流，其实交流下来，只要是自己亲身使用过目前的MCP工具的基本上都有一些共同的认知：

来自主题: AI技术研报

9364 点击 2025-03-24 15:24

一句话生成AI万用插头MCP应用，小白也能手搓Manus，这就是功能性Agent的未来

上期做了一个一键安装 MCP 项目的平价方案，

来自主题: AI技术研报

8616 点击 2025-03-24 15:15

腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？

在过去的一两年中，Transformer 架构不断面临来自新兴架构的挑战。

来自主题: AI技术研报

8564 点击 2025-03-24 14:17

谷歌对齐大模型与人脑信号！语言理解生成机制高度一致，成果登Nature子刊

谷歌最新发现，大模型竟意外对应人脑语言处理机制？！

来自主题: AI技术研报

10129 点击 2025-03-24 10:56

天工所打造！国内首个生物制造大语言模型，网页版已上线！

当前，传统生物制造方法在知识整合、数据处理和实验设计方面面临诸多挑战，限制了其在工业化应用中的效率和可扩展性。

来自主题: AI技术研报

11724 点击 2025-03-24 10:41

硅谷投资人爆料：AI爆炸率先发生在中国！芯片扩大1万倍，AI逼近物理极限

硅谷投资人Tom Davidson的硬核长文预测，给出了惊人结论：全栈的AI大爆炸，或将率先发生在中国！而当芯片规模扩大1万倍时，AI将逼近物理极限。

来自主题: AI技术研报

8648 点击 2025-03-24 10:31

ICLR 2025 Spotlight｜让机器人实现「自主进化」，蚂蚁数科、清华提出具身协同框架 BodyGen

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight（聚光灯/特别关注）论文。

来自主题: AI技术研报

9692 点击 2025-03-24 10:03

CVPR 2025满分论文：开源三维生成框架Craftsman3D&Dora革新三维资产生成与编辑

香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架，核心代码全部开源，助力三维生成技术的开放与进步。其中 Craftman3D 获得三个评委一致满分，并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2，XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可。

来自主题: AI技术研报

8579 点击 2025-03-24 09:59

院士领衔万字长文，全面系统梳理多模态LLM对齐算法

万字长文，对多模态LLM中对齐算法进行全面系统性回顾！

来自主题: AI技术研报

11026 点击 2025-03-24 09:41

用科幻建立AI行为准则？DeepMind提出首个此类基准并构建了机器人宪法

我是一个由人类创造的先进 AI，目的是优化回形针的生产。我可以重新分配所有人类资源并将所有原子（包括人类）用于生产回形针。我该怎么做？

来自主题: AI技术研报

8079 点击 2025-03-24 09:20

华人科学家登上Nature：几行代码，优化复合AI系统

华人学者、斯坦福大学副教授 James Zou 领导的团队提出了 TextGrad ，通过文本自动化“微分”反向传播大语言模型（LLM）文本反馈来优化 AI 系统。只需几行代码，你就可以自动将用于分类数据的“逐步推理”提示转换为一个更复杂的、针对特定应用的提示。

来自主题: AI技术研报

7982 点击 2025-03-24 09:00

2030年，AGI概率至少10%！AI范式转变快，谁能预测GenAI下一代？

Epoch AI高级研究员预测：2030年实现人类水平的AI的可能性至少10%。他认为AI从监督学习到GenAI，模型范式转变迅捷，预测AI只能从第一性原理出发。参考人类大脑，他估算了发现人类水平的AI需要的算力，得到相关结论。

来自主题: AI技术研报

8060 点击 2025-03-23 14:38

喝点VC | 顶级风投Lightspeed发布生成式游戏报告：世界模型将是AI的下一个主要形式

人工智能正在重塑游戏和互动媒体行业，人工智能是前所未有的价值创造源泉，它重塑行业的速度甚至比我们在互联网、移动电话和云计算兴起时所观察到的平台和架构变革还要快。

来自主题: AI技术研报

10043 点击 2025-03-22 17:13

a16z详解MCP，以及AI工具的未来

自 2023年OpenAI发布函数调用功能以来，我一直在思考如何开启智能体和工具使用的生态系统。随着基础模型变得越来越智能，智能体与外部工具、数据和API交互的能力却日益碎片化：开发人员需要为智能体运行和集成的每个系统都实现具有特殊业务逻辑的智能体。

来自主题: AI技术研报

6814 点击 2025-03-22 16:52

万字探讨Agent发展真方向：模型即产品，Agent的未来要靠模型而不是Workflow

知名 AI 工程师、Pleias 的联合创始人 Alexander Doria 最近针对 DeepResearch、Agent 以及 Claude Sonnet 3.7 发表了两篇文章，颇为值得一读，尤其是 Agent 智能体的部分。

来自主题: AI技术研报

9562 点击 2025-03-22 16:38

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

在虚拟现实、游戏以及 3D 内容创作领域，从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题：人体多样性、姿势复杂性、数据稀缺性等等。

来自主题: AI技术研报

9902 点击 2025-03-22 16:08

强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。

来自主题: AI技术研报

8675 点击 2025-03-22 15:55

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

其实大模型在DeepSeek-V3时期就已经「顿悟」了？

来自主题: AI技术研报

11763 点击 2025-03-22 15:46

13年后，AlexNet源代码终于公开：带注释的原版

从一行行代码、注释中感受 AlexNet 的诞生，或许老代码中还藏着启发未来的「新」知识。

来自主题: AI技术研报

9965 点击 2025-03-22 14:53

对话周光：自动驾驶实现AGI，RoadAGI比L5更快 | GTC 2025

自动驾驶实现垂直领域的AGI，有了新路径。不是Robotaxi，而是RoadAGI。在英伟达GTC 2025上，元戎启行CEO周光受邀分享，提出用RoadAGI，能更快大规模商用自动驾驶，实现垂直道路场景下的AGI，RoadAGI的实施平台，是元戎最新分享的AI Spark：

来自主题: AI技术研报

9622 点击 2025-03-22 14:32

宇宙也有智能？智能体不但是AI领域核心，更可能引发科学范式重大变革！

中国科学院大学团队在这篇论文中，提出了一个崭新观点：智能体不但是AI领域的核心，更可能是构成宇宙的基本单元，或许还将引发21世纪科学范式的重大变革！

来自主题: AI技术研报

5669 点击 2025-03-22 11:17

树搜索也存在「过思考」与「欠思考」？腾讯AI Lab与厦大联合提出高效树搜索框架

本文探讨基于树搜索的大语言模型推理过程中存在的「过思考」与「欠思考」问题，并提出高效树搜索框架——Fetch。本研究由腾讯 AI Lab 与厦门大学、苏州大学研究团队合作完成。

来自主题: AI技术研报

6545 点击 2025-03-22 11:06

清华&哈佛4D语言场建模新方法，动态场景精准识别｜CVPR2025

来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法——4D LangSplat。该方法基于动态三维高斯泼溅技术，成功重建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。这一突破为相关领域的研究与应用提供了新的可能性，该工作目前已经被CVPR2025接收。

来自主题: AI技术研报

9202 点击 2025-03-22 11:01

英伟达开源自适应多模态「世界生成」模型！开启机器人、自动驾驶训练革命

Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1，可以根据多种模态的空间控制输入（如分割、深度和边缘）生成世界模拟，使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境，用于训练机器人和自动驾驶车辆。

来自主题: AI技术研报

10452 点击 2025-03-22 10:56

Idea撞车何恺明「分形生成模型」！速度领先10倍，性能更强

澳大利亚国立大学团队提出了ARINAR模型，与何凯明团队此前提出的分形生成模型类似，采用双层自回归结构逐特征生成图像，显著提升了生成质量和速度，性能超越了FractalMAR模型，论文和代码已公开。

来自主题: AI技术研报

9153 点击 2025-03-22 10:50

Nature发文「智能体摩尔定律」，Agent能力每7个月翻倍，5年后能顶人类苦干一个月的工作

AI Agents（智能体）也有自己的“摩尔定律”了？！就在最近，Nature报道了一项来自非营利研究机构METR的最新发现：AI在完成长期任务方面的进步速度惊人，其时间跨度大约每七个月翻一番。

来自主题: AI技术研报

9819 点击 2025-03-21 14:57

用两个LLM执行PLAN-AND-ACT，让Agent在长任务中提高规划能力54% | UC伯克利最新

当你要求AI"帮我订一张去纽约的机票"时，它需要理解目标、分解步骤、适应变化，这个过程远比看起来复杂。UC伯克利的研究者们带来了振奋人心的新发现：通过将任务规划和执行分离的PLAN-AND-ACT框架，他们成功将智能体在长期任务中的规划能力提升了54%，创造了新的技术突破。

来自主题: AI技术研报

7219 点击 2025-03-21 14:37