AI资讯新闻榜单内容搜索-后训练

ACL'25最佳论文独家解读：大模型有「抗改造」基因，现有后训练范式失灵预警

尽管全球科技界正热烈庆祝 GPT-4、DeepSeek 等大模型展现出的惊艳能力，但一个根本性问题仍未被真正解决：这些 AI 模型是否真正理解人类的指令与意图？

来自主题: AI技术研报

7717 点击 2025-08-01 12:27

大模型竞赛转向：决胜关键为何是“后训练”？

随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透，AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练（Post-training），正从过去锦上添花的“调优”环节，演变为决定模型最终价值的“主战场”。

来自主题: AI技术研报

8121 点击 2025-07-20 12:30

Perplexity CEO罕见发声：Kimi K2测试表现良好，考虑基于其进行后训练！

美国AI初创公司 Perplexity 的联合创始人兼首席执行官Aravind Srinivas今日在社交平台发文，首次公开评价中国大模型“月之暗面”Kimi K2。他表示，Kimi K2 在内部测试中表现良好，Perplexity 正在考虑在其基础上进行后训练。

来自主题: AI资讯

9758 点击 2025-07-14 10:35

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式，可以说，已成为AI迈向AGI进程中的关键技术节点。然而，其中奖励模型的设计与训练，始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报

7605 点击 2025-07-12 11:51

OpenAI华人AI大牛集体跳槽Meta！清华北大浙大中科大校友各一位，多模态后训练、感知团队负责人全走了

扎克伯格又从奥特曼手里挖走4名顶尖AI人才，这次四位都是华人研究员。

来自主题: AI资讯

8177 点击 2025-06-29 13:54

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。

来自主题: AI技术研报

7574 点击 2025-06-25 16:55

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

无监督的熵最小化（EM）方法仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的表现，甚至超越依赖大量数据和复杂奖励机制的强化学习（RL）。EM通过优化模型的预测分布，增强其对正确答案的置信度，为大模型后训练提供了一种更高效简洁的新思路。

来自主题: AI技术研报

7579 点击 2025-06-05 11:43

小红书成立「hi lab」，提出要对AI做人文训练

第一财经「新皮层」独家获得消息称，小红书已将内部大模型技术与应用产品团队升级为「hi lab」（人文智能实验室，Humane Intelligence Lab）。同时，小红书今年年初开始组建「AI人文训练师」团队，邀请有深厚人文背景的研究者与AI领域的算法工程师、科学家共同完成对AI的后训练，以训练AI具有更好的人文素养以及表现上的一致性。而这个「AI人文训练师」团队也隶属于「hi lab」。

来自主题: AI资讯

9024 点击 2025-05-28 21:59

北大、清华、UvA、CMU等联合发布：大模型逻辑推理能力最新综述

当前大模型研究正逐步从依赖扩展定律（Scaling Law）的预训练，转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性，提升大模型的逻辑推理能力成为解决幻觉问题的关键途径。

来自主题: AI技术研报

8253 点击 2025-05-08 10:50

首次系统评估Qwen3在后训练量化下的鲁棒性：8bit下仍保持近乎无损性能

Qwen3强势刷新开源模型SOTA，但如何让其在资源受限场景中，既能实现低比特量化，又能保证模型“智商”不掉线？

来自主题: AI技术研报

8714 点击 2025-05-07 13:52