AI技术研报-这里有最前沿的人工智能技术解读

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而，我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如，在拍摄赛车追逐的场景时，镜头通常跟随赛车运动，并通过扣人心弦的超车时刻来展示赛事的白热化。

来自主题: AI技术研报

9046 点击 2025-05-12 10:31

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

OpenAI GPT-4o发布强大图片生成能力后，业界对大模型生图能力的探索向全模态方向倾斜，训练全模态模型成研发重点。

来自主题: AI技术研报

4789 点击 2025-05-12 10:22

斯坦福的以弱驭强W4S，用Meta-Agent驾驭更强的LLM，准确率提升至95.4% | 最新

本文详细介绍了斯坦福大学最新提出的"以弱驭强"（W4S）范式，这一创新方法通过训练轻量级的弱模型来优化强大语言模型的工作流。核心亮点包括：

来自主题: AI技术研报

7949 点击 2025-05-12 10:10

只有通过海量测试才能抓住泛化性的本质吗？

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时，我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」？我们真的只有通过海量的测试数据才能抓住泛化性的本质吗？或者说，能否在数学上找到一个定理，直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢？

来自主题: AI技术研报

7818 点击 2025-05-11 14:35

AI提示词终极指南：掌握这些技巧，让输出效果翻倍

AI输出陷入"无效对话"困境？其实是你不懂提问的艺术。从指令颗粒度拆解到思维链编织，本文揭示精准提问如何唤醒AI潜能——与其焦虑技术颠覆，不如掌握这套数字化时代的元能力，让语言真正成为撬动生产力的支点。文章来自编译。

来自主题: AI技术研报

7280 点击 2025-05-11 14:17

鹅厂开源视频生成大杀器！参考图主体精准复刻，还能编辑现有视频

刚刚，鹅厂开源“自定义”视频生成模型HunyuanCustom。

来自主题: AI技术研报

8251 点击 2025-05-10 17:30

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

模型胡乱论证“1+1=3”，评测系统却浑然不觉甚至疯狂打Call？是时候给奖励模型打个分了！

来自主题: AI技术研报

6811 点击 2025-05-10 17:13

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲

来自主题: AI技术研报

6923 点击 2025-05-10 15:59

万径归于「概率」，华人学者颠覆认知！英伟达大牛力荐RL微调新作

华人学者参与的一项研究，重新确立了强化学习在LLM微调的价值，深度解释了AI训练「两阶段强化学习」的原因。某种意义上，他们的论文说明RL微调就是统计。

来自主题: AI技术研报

8066 点击 2025-05-10 15:10

喝下这一碗模型汤，掌握向量模型的训练秘方

那些曾在KDD时代Kaggle上打榜刷分的老炮儿，每每提起 Bagging 与 Boosting 这两项技术嘴角都压不住笑。

来自主题: AI技术研报

6859 点击 2025-05-10 14:49

OpenAI和Google正在玩一个99%的人都不知道的游戏

AI研究中，基准测试（benchmark）和排行榜在评估模型性能上扮演着关键角色。

来自主题: AI技术研报

7618 点击 2025-05-10 14:29

一张照片、一句简单提示词，就被ChatGPT人肉开盒，深度解析o3隐私漏洞

一张普通的生活照，可能成为 AI 破解你隐私的钥匙 —— 这不是科幻情节，而是最新研究揭示的残酷现实。

来自主题: AI技术研报

6937 点击 2025-05-10 14:05

完全开源！全新多合一AI智能体框架来了：无缝支持多种工具、多种任务

当AI与工具相结合，智能体不再只是概念！Minion-agent整合多框架能力，解决碎片化问题，支持多智能体协作与工具调用，降低开发门槛，已在多个场景中展现高效能力，有望推动AI智能体创新和普及！

来自主题: AI技术研报

6395 点击 2025-05-10 13:52

Harmon：协调视觉表征，统一多模态理解和生成（模型已开源）

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力，然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务，是一个巨大的挑战。

来自主题: AI技术研报

8133 点击 2025-05-10 13:35

3万字读懂：一季度全球AI应用，谁暴涨？谁掉队？

2025年一季度全球AI应用市场呈现爆发式增长，海外MAU达9.8亿（环比增15%），中国MAU达4.62亿（环比增101%）。DeepSeek以低成本开源策略颠覆行业，推动中国AI普及。Agent形态应用主导全球，AI聊天机器人、视频创作等赛道高速增长，虚拟角色和教育学习粘性突出。字节、腾讯等头部公司多端布局，中国AI应用出海聚焦视频、图像等赛道，OpenAI商业化表现强劲。

来自主题: AI技术研报

7003 点击 2025-05-10 10:33

世界首个AI多人游戏全面开源！1500刀实时生成，一台PC跑出平行宇宙

刚刚，全球首个AI多人世界模型开源了！只需一台PC外加1500美元，就能让两个AI智能体在同一个世界中感知、互动、协作。这不仅是AI造梦的一小步，更是AGI创造世界模型的一大步。

来自主题: AI技术研报

7108 点击 2025-05-09 21:08

在人流如织的大街小巷，这家公司的机器人正跑着自己的「马拉松」

前段时间，在北京亦庄举办的「人形机器人半程马拉松」活动引发全民热议。

来自主题: AI技术研报

7385 点击 2025-05-09 17:38

KuaiMod来了！快手用大模型重构短视频生态格局

在短视频成为亿万用户日常生活标配的当下，它不仅是一种娱乐方式，更是人们获取信息、表达观点、构建社交的主要媒介。

来自主题: AI技术研报

7259 点击 2025-05-09 17:19

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

近日，来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告：短短4个月，他们就让DeepSeek-R1在H100上的性能提升了26倍，吞吐量已非常接近DeepSeek官博数据！

来自主题: AI技术研报

9172 点击 2025-05-09 12:55

谷歌DeepMind&CMU：过去引导LLM规划的方法是错的？用GRASE-DC改进。ICLR2025

当您的Agent需要规划多步骤操作以达成目标时，比如游戏策略制定或旅行安排优化等等，传统规划方法往往需要复杂的搜索算法和多轮提示，计算成本高昂且效率不佳。来自Google DeepMind和CMU的研究者提出了一个简单却非常烧脑的问题：我们是否一直在用错误的方式选择示例来引导LLM学习规划？

来自主题: AI技术研报

8990 点击 2025-05-09 11:58

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用：

来自主题: AI技术研报

7919 点击 2025-05-09 11:51

ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码，多项任务远超RoPE

长文本能力对语言模型（LM，Language Model）尤为重要，试想，如果 LM 可以处理无限长度的输入文本，我们可以预先把所有参考资料都喂给 LM，或许 LM 在应对人类的提问时就会变得无所不能。

来自主题: AI技术研报

7892 点击 2025-05-09 10:42

DeepSeek致谢腾讯大模型网络提速技术方案贡献

最近，DeepSeek工程师在GitHub上高亮了来自腾讯的代码贡献，并用“huge speedup”介绍了这次性能提升。

来自主题: AI技术研报

4862 点击 2025-05-08 15:02

仅看视频就能copy人类动作，宇树G1分分钟掌握100+，UC伯克利提出机器人训练新方式

不用动作捕捉，只用一段视频就能教会机器人学会人类动作，效果be like：

来自主题: AI技术研报

8162 点击 2025-05-08 14:57

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

在人工智能领域，推理能力的进化已成为通向通用智能的核心挑战。近期，Reinforcement Learning with Verifiable Rewards（RLVR）范式下涌现出一批「Zero」类推理模型，摆脱了对人类显式推理示范的依赖，通过强化学习过程自我学习推理轨迹，显著减少了监督训练所需的人力成本。

来自主题: AI技术研报

6884 点击 2025-05-08 14:49

Bye，英伟达！华为NPU，跑出了准万亿参数大模型

现在，跑准万亿参数的大模型，可以彻底跟英伟达Say Goodbye了。

来自主题: AI技术研报

7089 点击 2025-05-08 14:36

ICLR 2025 | 无需训练加速20倍，清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

扩散模型（Diffusion Models）近年来在生成任务上取得了突破性的进展，不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现，推动了文本到图像、视频生成的技术革新。然而，标准扩散模型的设计通常只适用于从随机噪声生成数据的任务，对于图像翻译或图像修复这类明确给定输入和输出之间映射关系的任务并不适合。

来自主题: AI技术研报

7031 点击 2025-05-08 14:23

北大、清华、UvA、CMU等联合发布：大模型逻辑推理能力最新综述

当前大模型研究正逐步从依赖扩展定律（Scaling Law）的预训练，转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性，提升大模型的逻辑推理能力成为解决幻觉问题的关键途径。

来自主题: AI技术研报

6808 点击 2025-05-08 10:50

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

最强AI模型面对5560道数学难题，成功率仅16.46%？背后真相大揭秘。

来自主题: AI技术研报

8132 点击 2025-05-08 10:36

微软正式开源UFO²，Windows桌面迈入「AgentOS 时代」

近年来，图形用户界面（GUI）自动化技术正在逐步改变人机交互和办公自动化的生态。然而，以 Robotic Process Automation（RPA）为代表的传统自动化工具通常依赖固定脚本进行操作，存在界面变化敏感、维护成本高昂、用户体验欠佳等明显问题。

来自主题: AI技术研报

9085 点击 2025-05-08 10:21

AI技术研报-这里有最前沿的人工智能技术解读

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

斯坦福的以弱驭强W4S，用Meta-Agent驾驭更强的LLM，准确率提升至95.4% | 最新

只有通过海量测试才能抓住泛化性的本质吗？

AI提示词终极指南：掌握这些技巧，让输出效果翻倍

鹅厂开源视频生成大杀器！参考图主体精准复刻，还能编辑现有视频

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

万径归于「概率」，华人学者颠覆认知！英伟达大牛力荐RL微调新作

喝下这一碗模型汤，掌握向量模型的训练秘方

OpenAI和Google正在玩一个99%的人都不知道的游戏

一张照片、一句简单提示词，就被ChatGPT人肉开盒，深度解析o3隐私漏洞

完全开源！全新多合一AI智能体框架来了：无缝支持多种工具、多种任务

Harmon：协调视觉表征，统一多模态理解和生成（模型已开源）

3万字读懂：一季度全球AI应用，谁暴涨？谁掉队？

世界首个AI多人游戏全面开源！1500刀实时生成，一台PC跑出平行宇宙

在人流如织的大街小巷，这家公司的机器人正跑着自己的「马拉松」

KuaiMod来了！快手用大模型重构短视频生态格局

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

谷歌DeepMind&CMU：过去引导LLM规划的方法是错的？ 用GRASE-DC改进。ICLR2025

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码，多项任务远超RoPE

DeepSeek致谢腾讯大模型网络提速技术方案贡献

仅看视频就能copy人类动作，宇树G1分分钟掌握100+，UC伯克利提出机器人训练新方式

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

Bye，英伟达！华为NPU，跑出了准万亿参数大模型

ICLR 2025 | 无需训练加速20倍，清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM

北大、清华、UvA、CMU等联合发布：大模型逻辑推理能力最新综述

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

微软正式开源UFO²，Windows桌面迈入「AgentOS 时代」

谷歌DeepMind&CMU：过去引导LLM规划的方法是错的？用GRASE-DC改进。ICLR2025

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世