AI技术研报-这里有最前沿的人工智能技术解读

硬核拆解！从GPT-2到gpt-oss，揭秘大模型进化关键密码

自GPT-2以来，大模型的整体架构虽然未有大的变化，但从未停止演化的脚步。借OpenAI开源gpt-oss（120B/20B），Sebastian Raschka博士将我们带回硬核拆机现场，回溯了从GPT-2到gpt-oss的大模型演进之路，并将gpt-oss与Qwen3进行了详细对比。

来自主题: AI技术研报

10075 点击 2025-08-18 11:13

SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

当前计算机使用智能体（CUA）的发展，主要依赖于大量昂贵的人工标注数据。这极大地限制了它们在缺少现成数据的新颖或专业软件中的应用能力。为了打破这一瓶颈，来自上海交通大学和香港中文大学的学者们提出了 SEAgent，一个全新的、无需任何人类干预，即可通过与环境交互来自主学习和进化的智能体框架。

来自主题: AI技术研报

8858 点击 2025-08-18 10:58

当AI比我们更聪明：李飞飞和Hinton给出截然相反的生存指南

人类对 AI 安全的担忧由来已久。在图灵测试被提出以及达特茅斯会议正式定义「人工智能」之前，阿西莫夫就已经提出了「机器人学三定律」。

来自主题: AI技术研报

8661 点击 2025-08-17 14:14

简单即强大：全新生成模型「离散分布网络DDN」是如何做到原理简单，性质独特？

本项工作提出了一种全新的生成模型：离散分布网络（Discrete Distribution Networks），简称 DDN。相关论文已发表于 ICLR 2025。

来自主题: AI技术研报

8457 点击 2025-08-17 13:35

大模型给自己当裁判并不靠谱！上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型（LLM）正从工具进化为“裁判”（LLM-as-a-judge），开始大规模地评判由AI自己生成的内容。这种高效的评估范式，其可靠性与人类判断的一致性，却很少被深入验证。

来自主题: AI技术研报

8232 点击 2025-08-17 13:16

AI顶会反噬整个学术圈！「不发表就会死」，NeurIPS爆仓，博士年肝4.5篇大崩溃

就在刚刚，NUS研究者呼吁：NeurIPS、ICML、CVPR三大顶会，正在反噬整个AI学术圈！平均每个研究者每年被逼狂发4.5篇论文，已经身心俱疲。总之，顶会模型已经濒临崩溃，是时候踩刹车了！

来自主题: AI技术研报

8224 点击 2025-08-17 13:03

深度解读｜10亿美元投后总结，海外顶级风投BVP发布2025年度AI报告（附PDF报告原文）

如果说 2023 年是 AI 的大爆炸时代，那么 2025 年就是 AI 宇宙中第一道光芒照亮黑暗的时刻。混沌初开的迷雾正在散去，基础性公司的星系开始成形，构建 AI 产品的最佳实践逐渐清晰，创业成功的模式也开始显现。

来自主题: AI技术研报

10861 点击 2025-08-16 16:52

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来，AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现，可验证强化学习（RLVR）技术展现出强大的性能提升潜力。

来自主题: AI技术研报

8775 点击 2025-08-16 16:45

模仿人类推理修正过程，阶跃星辰提出形式化证明新范式 | 开源

形式化定理证明，又有新范式！阶跃星辰正式发布并开源了形式化定理证明大模型：StepFun-Prover-Preview-7B和StepFun-Prover-Preview-32B。

来自主题: AI技术研报

9796 点击 2025-08-16 16:10

追剧不断网，可能背后有个AI在加班，故障诊断准度破91.79%

当你的手机突然没信号时，电信工程师在做什么？想象一下这样的场景：某个周五晚上，你正在用手机追剧，突然网络断了。与此同时，成千上万的用户也遇到了同样的问题。电信运营商的监控中心瞬间被数百个告警信息淹没 —— 基站离线、信号中断、设备故障…

来自主题: AI技术研报

7136 点击 2025-08-16 15:57

AI 模特时代到来：字节x清华推出商用级视频换装模型DreamVVT，保真度显著领先SOTA

服装视频广告太烧钱？卡点变装太难拍？字节跳动智能创作团队联合清华大学最新推出一款全能的视频换装模型 DreamVVT，为视频虚拟试穿领域带来了突破性进展。

来自主题: AI技术研报

8169 点击 2025-08-15 12:56

链式思维是幻象吗？从数据分布视角重新审视大模型推理，马斯克回复，Grok破防

思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段，通过在输入中加入「Let’s think step by step」等提示，模型会生成类似人类的中间推理步骤，显著提升复杂任务的表现。然而，这些流畅的推理链条是否真的反映了模型的推理能力？

来自主题: AI技术研报

8051 点击 2025-08-15 12:38

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

用过 DeepSeek-R1 等推理模型的人，大概都遇到过这种情况：一个稍微棘手的问题，模型像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。现在，我们或许有了解决方案。

来自主题: AI技术研报

7959 点击 2025-08-15 11:26

ICCV 2025 | HERMES：首个统一3D场景理解与生成的世界模型

在复杂的城市场景中，HERMES 不仅能准确预测未来三秒的车辆与环境动态（如红圈中标注的货车），还能对当前场景进行深度理解和问答（如准确识别出 “星巴克” 并描述路况）。

来自主题: AI技术研报

8756 点击 2025-08-15 11:10

告别Transformer，重塑机器学习范式：上海交大首个「类人脑」大模型诞生

当前 GPT 类大语言模型的表征和处理机制，仅在输入和输出接口层面对语言元素保持可解释的语义映射。相比之下，人类大脑直接在分布式的皮层区域中编码语义，如果将其视为一个语言处理系统，它本身就是一个在全局上可解释的「超大模型」。

来自主题: AI技术研报

8802 点击 2025-08-14 11:11

港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

刚刚，一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv，其中提出了一个用于构建和扩展 CUA（使用计算机的智能体）的完全开源的框架。使用该框架，他们还构建了一个旗舰模型 OpenCUA-32B，其在 OSWorld-Verified 上达到了 34.8% 的成功率，创下了新的开源 SOTA，甚至在这个基准测试中超越了 GPT-4o。

来自主题: AI技术研报

10720 点击 2025-08-14 09:39

AI顶会模式出了问题？「不发表，就出局」的恶性循环，正在压垮整个AI学界

相信我们的读者都对 AI 顶会有非常大的关注和热情，有的读者最近可能刚从 NeurIPS rebuttal 脱身，又开始为下一篇做准备了。作为推动技术革新与思想碰撞的核心引擎，顶级学术会议不仅是整个学界的生命线，更是我们洞察未来的前沿阵地。

来自主题: AI技术研报

7851 点击 2025-08-13 16:41

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

9504 点击 2025-08-13 16:29

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

8007 点击 2025-08-13 16:03

Artificial Analysis 重磅发布《2025年Q2中国AI现状报告》：中国与美国差距已从一年缩短至3个月

Artificial Analysis 最近发布了《State of AI: China Q2 2025 Highlights Report》（2025年Q2 中国人工智能现状分析报告），聚焦中国 AI 发展现状。

来自主题: AI技术研报

12495 点击 2025-08-13 15:57

从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

近年来，大语言模型（LLM）已展现出卓越的通用能力，但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境，模型无法实时调整其内部参数，这一根本性瓶颈日益凸显。

来自主题: AI技术研报

8520 点击 2025-08-13 11:32

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。

来自主题: AI技术研报

9183 点击 2025-08-13 11:27

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

面对对抗攻击，具身智能体除了被动防范，也能主动出击！在人类视觉系统启发下，清华朱军团队在TPMAI 2025中提出了强化学习驱动的主动防御框架REIN-EAD。

来自主题: AI技术研报

8743 点击 2025-08-13 11:21

AI代码生成，上下文示例怎样写最有效？港科大最新

长久以来我们都知道在Prompt里塞几个好例子能让LLM表现得更好，这就像教小孩学东西前先给他做个示范。在Vibe coding爆火后，和各种代码生成模型打交道的人变得更多了，大家也一定用过上下文学习（In-Context Learning, ICL）或者检索增强生成（RAG）这类技术来提升它的表现。

来自主题: AI技术研报

10121 点击 2025-08-13 10:45

拿下3D生成行业新标杆！昆仑万维Matrix-3D新模型鲨疯了，一张图建模游戏场景

3D生成的行业新标杆，这一次由国产玩家树立。万万没想到，这样一个堪比游戏全景视角的场景，竟然只由一张图片生成？！

来自主题: AI技术研报

8905 点击 2025-08-12 17:28

AI全国榜单爆冷，全网吃瓜大狂欢！这家黑马竟靠DeepSeek杀进全国TOP 2

AI搜索大战，已经白热化！最新QuestMobile报告揭晓：夸克月人均使用次数稳居第一，微博智搜凭DeepSeek杀进前二，腾讯「新闻妹」拿到第三。实测发现，天气预警、社会新闻、数码测评、娱乐八卦，微博智搜统统一键梳理，让网友搜索体验爽到飞起。

来自主题: AI技术研报

9016 点击 2025-08-12 17:17

Lumina-mGPT 2.0：自回归模型华丽复兴，媲美顶尖扩散模型

上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型，统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成和密集预测在内的广泛任务。

来自主题: AI技术研报

8926 点击 2025-08-12 17:03

物理学「AlphaGo时刻」？40年未竟之事被AI一举攻破，顶尖物理学家集体傻眼

AI设计出人类看不懂的实验，却成功破解物理学数十年难题，大幅提升LIGO灵敏度。寻找暗物质，解读宇宙公式都不在话下，AI辅助物理学发现的新时代已经到来。

来自主题: AI技术研报

9353 点击 2025-08-12 16:23

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

近年来，扩散模型在图像与视频合成领域展现出前所未有的生成能力，为人脸生成与编辑技术按下了加速键。特别是一张静态人脸驱动任意表情、姿态乃至光照的梦想，正在走向大众工具箱，并在三大场景展现巨大潜力

来自主题: AI技术研报

9927 点击 2025-08-12 16:10

「一只手有几根手指」，你的GPT-5答对了吗？

「一只手有几根手指？」这个看似简单的问题，强如 GPT-5 却并不能总是答对。今天，CMU 博士生、英伟达 GEAR（通用具身智能体研究）团队成员 Tairan He（何泰然）向 GPT-5 询问了这个问题，结果模型回答错了。

来自主题: AI技术研报

9245 点击 2025-08-12 12:08

AI技术研报-这里有最前沿的人工智能技术解读

硬核拆解！从GPT-2到gpt-oss，揭秘大模型进化关键密码

SEAgent：开启从实战经验中自我进化的GUI智能体新纪元

当AI比我们更聪明：李飞飞和Hinton给出截然相反的生存指南

简单即强大：全新生成模型「离散分布网络DDN」是如何做到原理简单，性质独特？

大模型给自己当裁判并不靠谱！上海交通大学新研究揭示LLM-as-a-judge机制缺陷

AI顶会反噬整个学术圈！「不发表就会死」，NeurIPS爆仓，博士年肝4.5篇大崩溃

深度解读｜10亿美元投后总结，海外顶级风投BVP发布2025年度AI报告（附PDF报告原文）

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

模仿人类推理修正过程，阶跃星辰提出形式化证明新范式 | 开源

追剧不断网，可能背后有个AI在加班，故障诊断准度破91.79%

AI 模特时代到来：字节x清华推出商用级视频换装模型DreamVVT，保真度显著领先SOTA

链式思维是幻象吗？从数据分布视角重新审视大模型推理，马斯克回复，Grok破防

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

ICCV 2025 | HERMES：首个统一3D场景理解与生成的世界模型

告别Transformer，重塑机器学习范式：上海交大首个「类人脑」大模型诞生

港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

AI顶会模式出了问题？ 「不发表，就出局」的恶性循环，正在压垮整个AI学界

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

Artificial Analysis 重磅发布《2025年Q2中国AI现状报告》：中国与美国差距已从一年缩短至3个月

从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

具身智能体主动迎战对抗攻击，清华团队提出主动防御框架

AI代码生成，上下文示例怎样写最有效？港科大最新

拿下3D生成行业新标杆！昆仑万维Matrix-3D新模型鲨疯了，一张图建模游戏场景

AI全国榜单爆冷，全网吃瓜大狂欢！这家黑马竟靠DeepSeek杀进全国TOP 2

Lumina-mGPT 2.0：自回归模型华丽复兴，媲美顶尖扩散模型

物理学「AlphaGo时刻」？40年未竟之事被AI一举攻破，顶尖物理学家集体傻眼

ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace

「一只手有几根手指」，你的GPT-5答对了吗？

AI顶会模式出了问题？「不发表，就出局」的恶性循环，正在压垮整个AI学界