AI技术研报-这里有最前沿的人工智能技术解读

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

不用引入外部数据，通过自我博弈（Self-play）就能让预训练大模型学会推理？

来自主题: AI技术研报

8066 点击 2025-05-12 15:18

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

近年来，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报

12601 点击 2025-05-12 14:59

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。

来自主题: AI技术研报

9657 点击 2025-05-12 14:51

8秒极速生成！复杂场景图像定制低成本轻松驾驭，已开源丨字节北大联合发布

可控图片生成，如今已经不是什么新鲜事。甚至也不需要复杂的提示词，用户通过简单的文本描述，就能快速生成符合个人需求的创意图像。

来自主题: AI技术研报

10113 点击 2025-05-12 14:07

全网惊了！陶哲轩带AI下场，33分钟「盲证」数学

菲尔兹奖得主陶哲轩再放大招，仅数天时间，开源的概念验证工具借助Copilot迭代至2.0版本。而在最新视频中，他甚至用AI在33分钟「盲做」形式化一页证明，效率惊人。

来自主题: AI技术研报

11368 点击 2025-05-12 12:24

转身世界就变样？WorldMem用记忆让AI生成的世界拥有了一致性

近年来，基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展，但由于上下文时间窗口受限，生成的世界在长时序下严重缺乏一致性。

来自主题: AI技术研报

9893 点击 2025-05-12 11:05

DeepSeek精度效率双提升，华为&信工所提出思维链“提前退出”机制

长思维链让大模型具备了推理能力，但如果过度思考，就有可能成为负担。

来自主题: AI技术研报

9520 点击 2025-05-12 10:45

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而，我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如，在拍摄赛车追逐的场景时，镜头通常跟随赛车运动，并通过扣人心弦的超车时刻来展示赛事的白热化。

来自主题: AI技术研报

11734 点击 2025-05-12 10:31

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

OpenAI GPT-4o发布强大图片生成能力后，业界对大模型生图能力的探索向全模态方向倾斜，训练全模态模型成研发重点。

来自主题: AI技术研报

7426 点击 2025-05-12 10:22

斯坦福的以弱驭强W4S，用Meta-Agent驾驭更强的LLM，准确率提升至95.4% | 最新

本文详细介绍了斯坦福大学最新提出的"以弱驭强"（W4S）范式，这一创新方法通过训练轻量级的弱模型来优化强大语言模型的工作流。核心亮点包括：

来自主题: AI技术研报

9811 点击 2025-05-12 10:10

只有通过海量测试才能抓住泛化性的本质吗？

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时，我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」？我们真的只有通过海量的测试数据才能抓住泛化性的本质吗？或者说，能否在数学上找到一个定理，直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢？

来自主题: AI技术研报

10012 点击 2025-05-11 14:35

AI提示词终极指南：掌握这些技巧，让输出效果翻倍

AI输出陷入"无效对话"困境？其实是你不懂提问的艺术。从指令颗粒度拆解到思维链编织，本文揭示精准提问如何唤醒AI潜能——与其焦虑技术颠覆，不如掌握这套数字化时代的元能力，让语言真正成为撬动生产力的支点。文章来自编译。

来自主题: AI技术研报

9955 点击 2025-05-11 14:17

鹅厂开源视频生成大杀器！参考图主体精准复刻，还能编辑现有视频

刚刚，鹅厂开源“自定义”视频生成模型HunyuanCustom。

来自主题: AI技术研报

10347 点击 2025-05-10 17:30

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

模型胡乱论证“1+1=3”，评测系统却浑然不觉甚至疯狂打Call？是时候给奖励模型打个分了！

来自主题: AI技术研报

9970 点击 2025-05-10 17:13

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲

来自主题: AI技术研报

9768 点击 2025-05-10 15:59

万径归于「概率」，华人学者颠覆认知！英伟达大牛力荐RL微调新作

华人学者参与的一项研究，重新确立了强化学习在LLM微调的价值，深度解释了AI训练「两阶段强化学习」的原因。某种意义上，他们的论文说明RL微调就是统计。

来自主题: AI技术研报

10723 点击 2025-05-10 15:10

喝下这一碗模型汤，掌握向量模型的训练秘方

那些曾在KDD时代Kaggle上打榜刷分的老炮儿，每每提起 Bagging 与 Boosting 这两项技术嘴角都压不住笑。

来自主题: AI技术研报

9785 点击 2025-05-10 14:49

OpenAI和Google正在玩一个99%的人都不知道的游戏

AI研究中，基准测试（benchmark）和排行榜在评估模型性能上扮演着关键角色。

来自主题: AI技术研报

10356 点击 2025-05-10 14:29

一张照片、一句简单提示词，就被ChatGPT人肉开盒，深度解析o3隐私漏洞

一张普通的生活照，可能成为 AI 破解你隐私的钥匙 —— 这不是科幻情节，而是最新研究揭示的残酷现实。

来自主题: AI技术研报

9132 点击 2025-05-10 14:05

完全开源！全新多合一AI智能体框架来了：无缝支持多种工具、多种任务

当AI与工具相结合，智能体不再只是概念！Minion-agent整合多框架能力，解决碎片化问题，支持多智能体协作与工具调用，降低开发门槛，已在多个场景中展现高效能力，有望推动AI智能体创新和普及！

来自主题: AI技术研报

8525 点击 2025-05-10 13:52

Harmon：协调视觉表征，统一多模态理解和生成（模型已开源）

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力，然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务，是一个巨大的挑战。

来自主题: AI技术研报

9970 点击 2025-05-10 13:35

3万字读懂：一季度全球AI应用，谁暴涨？谁掉队？

2025年一季度全球AI应用市场呈现爆发式增长，海外MAU达9.8亿（环比增15%），中国MAU达4.62亿（环比增101%）。DeepSeek以低成本开源策略颠覆行业，推动中国AI普及。Agent形态应用主导全球，AI聊天机器人、视频创作等赛道高速增长，虚拟角色和教育学习粘性突出。字节、腾讯等头部公司多端布局，中国AI应用出海聚焦视频、图像等赛道，OpenAI商业化表现强劲。

来自主题: AI技术研报

13394 点击 2025-05-10 10:33

世界首个AI多人游戏全面开源！1500刀实时生成，一台PC跑出平行宇宙

刚刚，全球首个AI多人世界模型开源了！只需一台PC外加1500美元，就能让两个AI智能体在同一个世界中感知、互动、协作。这不仅是AI造梦的一小步，更是AGI创造世界模型的一大步。

来自主题: AI技术研报

9700 点击 2025-05-09 21:08

在人流如织的大街小巷，这家公司的机器人正跑着自己的「马拉松」

前段时间，在北京亦庄举办的「人形机器人半程马拉松」活动引发全民热议。

来自主题: AI技术研报

9460 点击 2025-05-09 17:38

KuaiMod来了！快手用大模型重构短视频生态格局

在短视频成为亿万用户日常生活标配的当下，它不仅是一种娱乐方式，更是人们获取信息、表达观点、构建社交的主要媒介。

来自主题: AI技术研报

9356 点击 2025-05-09 17:19

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

近日，来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告：短短4个月，他们就让DeepSeek-R1在H100上的性能提升了26倍，吞吐量已非常接近DeepSeek官博数据！

来自主题: AI技术研报

12362 点击 2025-05-09 12:55

谷歌DeepMind&CMU：过去引导LLM规划的方法是错的？用GRASE-DC改进。ICLR2025

当您的Agent需要规划多步骤操作以达成目标时，比如游戏策略制定或旅行安排优化等等，传统规划方法往往需要复杂的搜索算法和多轮提示，计算成本高昂且效率不佳。来自Google DeepMind和CMU的研究者提出了一个简单却非常烧脑的问题：我们是否一直在用错误的方式选择示例来引导LLM学习规划？

来自主题: AI技术研报

11358 点击 2025-05-09 11:58

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用：

来自主题: AI技术研报

10330 点击 2025-05-09 11:51

ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码，多项任务远超RoPE

长文本能力对语言模型（LM，Language Model）尤为重要，试想，如果 LM 可以处理无限长度的输入文本，我们可以预先把所有参考资料都喂给 LM，或许 LM 在应对人类的提问时就会变得无所不能。

来自主题: AI技术研报

10102 点击 2025-05-09 10:42

DeepSeek致谢腾讯大模型网络提速技术方案贡献

最近，DeepSeek工程师在GitHub上高亮了来自腾讯的代码贡献，并用“huge speedup”介绍了这次性能提升。

来自主题: AI技术研报

7683 点击 2025-05-08 15:02

AI技术研报-这里有最前沿的人工智能技术解读

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

8秒极速生成！复杂场景图像定制低成本轻松驾驭，已开源丨字节北大联合发布

全网惊了！陶哲轩带AI下场，33分钟「盲证」数学

转身世界就变样？WorldMem用记忆让AI生成的世界拥有了一致性

DeepSeek精度效率双提升，华为&信工所提出思维链“提前退出”机制

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

斯坦福的以弱驭强W4S，用Meta-Agent驾驭更强的LLM，准确率提升至95.4% | 最新

只有通过海量测试才能抓住泛化性的本质吗？

AI提示词终极指南：掌握这些技巧，让输出效果翻倍

鹅厂开源视频生成大杀器！参考图主体精准复刻，还能编辑现有视频

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

万径归于「概率」，华人学者颠覆认知！英伟达大牛力荐RL微调新作

喝下这一碗模型汤，掌握向量模型的训练秘方

OpenAI和Google正在玩一个99%的人都不知道的游戏

一张照片、一句简单提示词，就被ChatGPT人肉开盒，深度解析o3隐私漏洞

完全开源！全新多合一AI智能体框架来了：无缝支持多种工具、多种任务

Harmon：协调视觉表征，统一多模态理解和生成（模型已开源）

3万字读懂：一季度全球AI应用，谁暴涨？谁掉队？

世界首个AI多人游戏全面开源！1500刀实时生成，一台PC跑出平行宇宙

在人流如织的大街小巷，这家公司的机器人正跑着自己的「马拉松」

KuaiMod来了！快手用大模型重构短视频生态格局

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

谷歌DeepMind&CMU：过去引导LLM规划的方法是错的？ 用GRASE-DC改进。ICLR2025

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码，多项任务远超RoPE

DeepSeek致谢腾讯大模型网络提速技术方案贡献

谷歌DeepMind&CMU：过去引导LLM规划的方法是错的？用GRASE-DC改进。ICLR2025