AI资讯新闻榜单内容搜索-后训练

从ChatGPT核心成员成立的这家初创，我们看到了一种更完整的AI for Science形态

今年三月，Liam Fedus 在推特上宣布离开 OpenAI。这条推文的影响力超出了所有人的预期——硅谷的风投们几乎是立刻行动起来，争相联系这位 ChatGPT 最初小团队的核心成员、曾领导 OpenAI 关键的后训练部门的研究者，他的离职甚至一度引发了一场“反向竞标”。

来自主题: AI资讯

9991 点击 2025-10-29 16:57

喝点VC｜YC对谈Anthropic预训练负责人：预训练团队也要考虑推理问题，如何平衡预训练和后训练仍在早期探索阶段

预训练的核心是推动损失函数下降，这是我们一直追求的唯一目标。

来自主题: AI资讯

8857 点击 2025-10-28 09:49

推理效率狂飙60倍：DiDi-Instruct让扩散大模型16步超越千步GPT

近日，来自普渡大学、德克萨斯大学、新加坡国立大学、摩根士丹利机器学习研究、小红书 hi-lab 的研究者联合提出了一种对离散扩散大语言模型的后训练方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。经过 DiDi-Instruct 后训练的扩散大语言模型可以以 60 倍的加速超越传统的 GPT 模型和扩散大语言模型。

来自主题: AI技术研报

9191 点击 2025-10-28 09:40

均值至上假繁荣！北大新作专挑难题，逼出AI模型真本事

大模型后训练的痛点：均值优化忽略低概率高信息路径，导致推理能力停滞。RiskPO双管齐下，MVaR目标函数推导梯度估计，多问题捆绑转化反馈，实验中Geo3K准确率54.5%，LiveCodeBench Pass@1提升1%，泛化能力强悍。

来自主题: AI技术研报

7142 点击 2025-10-25 14:32

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

来自主题: AI技术研报

5539 点击 2025-10-24 10:33

「重要性采样」并不「重要」？快手清华ASPO攻克重要性采样权重错配

从ChatGPT到DeepSeek，强化学习（Reinforcement Learning, RL）已成为大语言模型（LLM）后训练的关键一环。

来自主题: AI技术研报

7573 点击 2025-10-18 11:41

AI玩拼图游戏暴涨视觉理解力，告别文本中心训练，无需标注的多模态大模型后训练范式

在多模态大模型的后训练浪潮中，强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。

来自主题: AI技术研报

7904 点击 2025-10-17 09:26

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR 本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑 —— 但现实是，以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

来自主题: AI技术研报

6644 点击 2025-10-15 14:19

真正的AI竞争力，藏在大模型“后训练”这一步

当全球的目光还在聚焦基座模型的参数竞赛时，一场更为深刻的变革正在悄然发生——后训练（Post-Training）。

来自主题: AI技术研报

8169 点击 2025-10-14 10:16

听说，大家都在梭后训练？最佳指南来了

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

7390 点击 2025-10-12 14:59