AI技术研报-这里有最前沿的人工智能技术解读

OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

PaperBench 是一个由 OpenAI 开发的基准测试，旨在评估 AI Agent 复现尖端 AI 研究的能力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。

来自主题: AI技术研报

9415 点击 2025-04-03 10:57

类比的长河，为何流到大模型就被截流？

当我们遇到新问题时，往往会通过类比过去的经验来寻找解决方案，大语言模型能否如同人类一样类比？在对大模型的众多批判中，人们常说大模型只是记住了训练数据集中的模式，并没有进行真正的推理。

来自主题: AI技术研报

11054 点击 2025-04-03 10:50

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

双人动作生成新SOTA！

来自主题: AI技术研报

9142 点击 2025-04-03 10:36

CVPR 2025：单图秒变专业影棚，几何/材质/光影全搞定，数据训练代码全开源

如何从一张普通的单幅图像准确估计物体的三维法线和材质属性，是计算机视觉与图形学领域长期关注的难题。

来自主题: AI技术研报

4514 点击 2025-04-03 10:11

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。

来自主题: AI技术研报

10335 点击 2025-04-03 09:58

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

没想到，文小言接入推理模型的大更新背后，百度还藏了一手“质变”级技术大招？？？

来自主题: AI技术研报

9438 点击 2025-04-03 09:55

6000字+6个案例：写给普通人的MCP入门指南

最近 MCP 协议很火，自己也发掘了一些玩法，但是目前来看 MCP 的配置还是过于繁琐了，对普通人门槛有点高。这几天终于摸索出来了一些方法让大家可以相对容易理解的方式配置 MCP 服务。

来自主题: AI技术研报

11969 点击 2025-04-02 16:55

用多模态模型，写新一代爬虫

字节有一个很实用但不怎么火的项目，叫 Midscene.js，Chrome 商店上的安装数仅有 1 万，它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到，但我发现它特别适合用来写爬虫……

来自主题: AI技术研报

11488 点击 2025-04-02 16:09

我终于成为了全栈开发，各种AI工具加持的全过程记录

本文从一个需求出发，全程记录如何进行全栈开发。

来自主题: AI技术研报

9232 点击 2025-04-02 15:59

从USB到MCP：AI 工具生态接口的革新

上周，OpenAI 正式支持 MCP 协议的消息，无疑成为 AI 基础设施演进的重要里程碑。短短几个月内，从 Anthropic 首次提出到微软、OpenAI 等巨头先后加入，这一标准正在以惊人的速度完成从提出、验证到主流采纳的跃迁。

来自主题: AI技术研报

6153 点击 2025-04-02 15:21

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术，成功构建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述，并通过状态变化网络实现语义特征的平滑建模，显著提升了动态语义场的建模能力。

来自主题: AI技术研报

5764 点击 2025-04-02 15:05

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

在数学推理中，大语言模型存在根本性局限：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报

10463 点击 2025-04-02 14:58

AI理解27分钟长视频超越GPT-4o，港理工新国立开源新框架：角色化推理+链式LoRA

AI能像人类一样理解长视频。

来自主题: AI技术研报

8203 点击 2025-04-02 14:54

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

在自动驾驶领域，高精度仿真系统扮演着 “虚拟练兵场” 的角色。工程师需要在数字世界中模拟暴雨、拥堵、突发事故等极端场景，反复验证算法的可靠性。

来自主题: AI技术研报

7981 点击 2025-04-02 14:48

在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

众所周知，DeepSeek R1 这种模型在推理任务上很能打，尤其是在数学和编程这些逻辑性强的领域。那么我们能直接把这种强大的推理能力搬到 DeepSearch 这种需要动态规划、多轮交互的深度搜索场景里吗？

来自主题: AI技术研报

8501 点击 2025-04-02 14:40

自动学会工具解题，RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中，工具使用一直是克服语言模型计算局限性的关键路径。不过，当今的大模型在使用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

来自主题: AI技术研报

10414 点击 2025-04-02 10:09

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

LLM正推动推荐系统革新，以用户表征为「软提示」的范式开辟了高效推荐新路径。在此趋势下，淘天团队发布了首个基于用户表征的个性化问答基准UQABench，系统评估了用户表征的提示效能。

来自主题: AI技术研报

3455 点击 2025-04-02 09:50

颠覆逆向工程！GhidraMCP让AI自主反编译程序，开发者必备神器！

当AI“入侵”逆向工程，效率提升100倍！

来自主题: AI技术研报

12211 点击 2025-04-01 16:46

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

来自主题: AI技术研报

8173 点击 2025-04-01 16:16

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由 IDEA、清华大学、北京大学、香港科技大学（广州）联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解，本届大会共收到 11672 篇论文，被选中做 Oral Presentation（口头报告）的比例约为 1.8%

来自主题: AI技术研报

5891 点击 2025-04-01 15:27

一脑多机！智源的新发布，让不同机器人轻松协作

3 月 29 日，智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能，为构建具身智能开源统一生态加速场景应用提供底层技术支持。

来自主题: AI技术研报

8739 点击 2025-04-01 15:19

让机器人在人群中穿梭自如，港科广&港科大突破社交导航盲区 | ICRA 2025

机器人落地复杂场景，社交导航能力一定是避不开的关键一点。

来自主题: AI技术研报

6269 点击 2025-04-01 15:14

这篇综述，LLM代理的方法、应用和挑战，2025的Agent势头特别猛。| 重磅

2025年，人工智能领域正在经历一场由LLM Agent引发的深刻变革，不管普通人的衣食住行还是研究者的尖端研究，都很难不受Agent的影响。

来自主题: AI技术研报

12723 点击 2025-04-01 10:06

奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

为了进一步挑战AI系统，大家已经开始研究一些最困难的竞赛中的问题，特别是国际奥林匹克竞赛和算法挑战。

来自主题: AI技术研报

6188 点击 2025-04-01 09:49

一秒十图！英伟达MIT联手刷新SOTA，一步扩散解锁实时高质量可控图像生成

SANA-Sprint是一个高效的蒸馏扩散模型，专为超快速文本到图像生成而设计。通过结合连续时间一致性蒸馏（sCM）和潜空间对抗蒸馏（LADD）的混合蒸馏策略，SANA-Sprint在一步内实现了7.59 FID和0.74 GenEval的最先进性能。SANA-Sprint仅需0.1秒即可在H100上生成高质量的1024x1024图像，在速度和质量的权衡方面树立了新的标杆。

来自主题: AI技术研报

10612 点击 2025-03-31 16:16

清华朱军团队 | 从点云到高保真三维网格：DeepMesh突破自回归生成瓶颈

在三维数字内容生产领域，三角形网格作为核心的几何表示形式，其质量直接影响虚拟资产在影视、游戏和工业设计等应用场景中的表现与效率。

来自主题: AI技术研报

6548 点击 2025-03-31 15:31

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

在视觉强化学习中，许多方法未考虑序列决策过程，导致所学表征缺乏关键的长期信息的空缺被填补上了。

来自主题: AI技术研报

4220 点击 2025-03-31 15:16

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

12087 点击 2025-03-31 15:07

被LangChain折磨够了吗？试下100行代码打造的LLM有向图框架PocketFlow | 独家最新

你是否曾对着一个繁复的AI框架，无奈地想："真有必要搞得这么复杂吗？"在与臃肿框架斗争一年后，Zachary Huang博士决定大刀阔斧地革新，剔除所有花里胡哨的部分。于是Pocket Flow诞生了——一个仅有100行代码的超轻量级大语言模型框架！

来自主题: AI技术研报

11971 点击 2025-03-31 09:48

CVPR 2025 | EmoEdit：情感可编辑？深大VCC带你见证魔法！

当你翻开相册，看到一张平淡无奇的风景照，是否希望它能更温暖、更浪漫，甚至更忧郁？现在，EmoEdit 让这一切成为可能 —— 只需输入一个简单的情感词，EmoEdit 便能巧妙调整画面，使观众感知你想传递的情感。

来自主题: AI技术研报

11210 点击 2025-03-31 09:25

AI技术研报-这里有最前沿的人工智能技术解读

OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

类比的长河，为何流到大模型就被截流？

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

CVPR 2025：单图秒变专业影棚，几何/材质/光影全搞定，数据训练代码全开源

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

6000字+6个案例：写给普通人的MCP入门指南

用多模态模型，写新一代爬虫

我终于成为了全栈开发，各种AI工具加持的全过程记录

从USB到MCP：AI 工具生态接口的革新

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

AI理解27分钟长视频超越GPT-4o，港理工新国立开源新框架：角色化推理+链式LoRA

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

自动学会工具解题，RL扩展催化奥数能力激增17%

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

颠覆逆向工程！GhidraMCP让AI自主反编译程序，开发者必备神器！

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

一脑多机！智源的新发布，让不同机器人轻松协作

让机器人在人群中穿梭自如，港科广&港科大突破社交导航盲区 | ICRA 2025

这篇综述，LLM代理的方法、应用和挑战，2025的Agent势头特别猛。| 重磅

奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

一秒十图！英伟达MIT联手刷新SOTA，一步扩散解锁实时高质量可控图像生成

清华朱军团队 | 从点云到高保真三维网格：DeepMesh突破自回归生成瓶颈

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

被LangChain折磨够了吗？试下100行代码打造的LLM有向图框架PocketFlow | 独家最新

CVPR 2025 | EmoEdit：情感可编辑？深大VCC带你见证魔法！

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题