冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。
来自主题: AI技术研报
7585 点击 2025-08-15 11:26
搜索
用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。