AI资讯新闻榜单内容搜索-后训练

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

6592 点击 2026-02-11 13:58

深度｜OpenAI产品经理及后训练负责人：决定模型真正聪明程度的不是智能水平，而是它理解你的方式

我们进入了一个模型不再只是“工具”的时代。真正的突破，不在于它能做多少事，而在于它是否能读懂你的意图、情绪与沉默。

来自主题: AI资讯

9352 点击 2026-01-20 17:20

1人顶1个Infra团队！OpenAI前CTO新招，让大模型训练跌成白菜价

当大模型竞争转向后训练，继续为闲置显卡烧钱无异于「慢性自杀」。如今，按Token计费的Serverless模式，彻底终结了算力租赁的暴利时代，让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报

7357 点击 2026-01-07 18:35

大模型第一股热闹正酣，“局外人”阶跃星辰发了一个小更新

直到刚刚，用最新的图像模型NextStep-1.1，扳回一球。总体来看，这次开源的NextStep-1.1解决了之前NextStep-1中出现的可视化失败（visualization failures ）问题。其通过扩展训练和基于流的强化学习（RL）后训练范式，大幅提升了图像质量。

来自主题: AI资讯

8961 点击 2025-12-28 09:57

智谱首席科学家唐杰：领域大模型是伪命题！AI模型应用的第一性不应是创造新App，在线学习和自我评估是新Scaling范式

最近，清华大学教授、智谱AI首席科学家唐杰发了一条长微博，总结了自己2025年对大模型进展的感悟。从预训练到中后训练、长尾场景的对齐能力，再到Agent、多模态和具身智能的发展，其中有不少亮点。

来自主题: AI资讯

8893 点击 2025-12-26 15:42

Gemini负责人：Pro的主要作用是蒸馏Flash！最大突破空间在后训练；Noam、Jeff Dean：持续学习是重要改进方向

2025年底，最令人印象深刻的AI圈大事莫过于Gemini 3 Flash的发布。

来自主题: AI资讯

7109 点击 2025-12-22 11:44

让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好

近日，上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro（Rectifying Process-level Reward）。这篇论文将推理的过程视为模型内部状态的优化过程，从而对如何重塑大模型的CoT提供了一个全新视角：

来自主题: AI技术研报

7312 点击 2025-12-21 12:35

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

VLA模型性能暴涨300%，背后训练数据还首次实现90%由世界模型生成。

来自主题: AI技术研报

8660 点击 2025-12-02 17:02

【首发】医疗大模型企业全诊医学获1亿元B轮融资，创投行业期待中国的Abridge

中国最早进行医疗大模型后训练的创新企业之一 ——杭州全诊医学科技有限公司（以下简称“全诊医学”）正式宣布完成1亿元B轮融资：2024年4季度由A股上市公司“创新医疗”(SZ.002173)完成战略轮投资；2025年2季度由中国医药工业百强“好医生集团”完成B轮投资，探针资本担任本轮融资的独家财务顾问。

来自主题: AI资讯

6649 点击 2025-11-13 16:46

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

来自主题: AI技术研报

8166 点击 2025-11-13 14:52