翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。当然是发~博~客。这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。
来自主题: AI技术研报
8605 点击 2024-12-03 00:16