AI资讯新闻榜单内容搜索-后训练

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式，可以说，已成为AI迈向AGI进程中的关键技术节点。然而，其中奖励模型的设计与训练，始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报

8169 点击 2025-07-12 11:51

OpenAI华人AI大牛集体跳槽Meta！清华北大浙大中科大校友各一位，多模态后训练、感知团队负责人全走了

扎克伯格又从奥特曼手里挖走4名顶尖AI人才，这次四位都是华人研究员。

来自主题: AI资讯

8770 点击 2025-06-29 13:54

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Model，LLM）后训练阶段的关键技术。

来自主题: AI技术研报

8221 点击 2025-06-25 16:55

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

无监督的熵最小化（EM）方法仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的表现，甚至超越依赖大量数据和复杂奖励机制的强化学习（RL）。EM通过优化模型的预测分布，增强其对正确答案的置信度，为大模型后训练提供了一种更高效简洁的新思路。

来自主题: AI技术研报

7963 点击 2025-06-05 11:43

小红书成立「hi lab」，提出要对AI做人文训练

第一财经「新皮层」独家获得消息称，小红书已将内部大模型技术与应用产品团队升级为「hi lab」（人文智能实验室，Humane Intelligence Lab）。同时，小红书今年年初开始组建「AI人文训练师」团队，邀请有深厚人文背景的研究者与AI领域的算法工程师、科学家共同完成对AI的后训练，以训练AI具有更好的人文素养以及表现上的一致性。而这个「AI人文训练师」团队也隶属于「hi lab」。

来自主题: AI资讯

9918 点击 2025-05-28 21:59