OpenAI o1 self-play RL 技术路线推演
OpenAI o1 self-play RL 技术路线推演OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。
来自主题: AI技术研报
8951 点击 2024-09-21 14:20
OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。
“o1发布后,一个新的范式产生了”。
“o1发布后,一个新的范式产生了”。
o1,Inference law,推理定律,模型训练
o1大火背后,最关键的技术是CoT。模型通过一步一步推理,恰恰是「慢思考」的核心要义。而这一观点,其实这家国内大厂早就率先实现了。
waitlist 挤爆了。
To CoT or not to CoT?
留子们在写一种很新的差评。 由于全球点评打卡平台,都有个自动翻译的功能,为了防止被店家骚扰,也为了给同胞避雷,身在海外的国人们,想出各种奇招优雅给差评。
行业内认为AGI发展加速,o1模型表现突出。
o1模型发布1周,lmsys的6k+投票就将o1-preview送上了排行榜榜首。同时,为了满足大家对模型「IOI金牌水平」的好奇心,OpenAI放出了o1测评时提交的所有代码。