超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPODeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。
DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。
现在是周日,天都黑了,眼瞅着快到 23 点 59 分了,差评君的量子计算文章还没写完。
AI 大神 Andrej Karpathy 在今年 2 月提出的概念——「Vibe Coding」,如今正在硅谷走红。
Google最近的动作真的多。
无论技术如何迭代,儿童产品本质仍是回归儿童认知逻辑。
在大模型逐步接近AGI之时,"AI对齐"一直被视为守护人类的最后一道防线。
2025 年初,OpenAI、Perplexity、xAI 等 AI 公司都相继推出 Deep(Re)Search 功能。交给模型慢慢思考从而得到更详细的回答,成为了新潮流。
近年来,代码评测集数量激增,但质量参差不齐。为规范其开发,香港科技大学联合多所高校研究了过去十年的274个代码评测集,发现诸多问题,如数据重复、测试用例错误、隐私信息未删除等。基于此,他们推出了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析、发布五大阶段,旨在提升代码评测集的质量与可靠性。
在你看来,开源是一种怎么样的存在? 纯慈善?活菩萨?理想主义者?
2月26日,北京大学第三医院的心内科诊室里,两种治疗方案在诊台上对峙:左侧是心内科大夫汪京嘉开出的一份用于治疗高血脂的医嘱,右侧是人工智能软件生成的处方。