AI资讯新闻榜单内容搜索-TIM

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

6960 点击 2025-08-13 16:03

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。

来自主题: AI技术研报

7798 点击 2025-08-13 11:27

蛋白质基座的GPT时代来了？！

蛋白质模型的GPT时刻来了！清华大学智能产业研究院（AIR）周浩副教授课题组联合上海人工智能实验室发布了AMix-1：首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系统化方法论来构建蛋白质基座模型。

来自主题: AI技术研报

7200 点击 2025-08-10 16:00

麻省理工学院推出AI学习平台MIT Learn

近日，麻省理工学院也推出了一个AI学习平台。这个名叫MIT Learn的平台提供超过12700个学习资源，其中大部分是免费的。这个名叫MIT Learn的平台提供超过12700个学习资源，其中大部分是免费的。

来自主题: AI资讯

9015 点击 2025-08-08 10:28

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

本文主要介绍 xML 团队的论文：Discrete Diffusion in Large Language and Multimodal Models: A Survey。

来自主题: AI技术研报

10504 点击 2025-07-17 10:42

比Adam更有效，POET从谱不变原理出发，让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生，Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员

来自主题: AI技术研报

9544 点击 2025-07-15 10:11

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校（UIUC）与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报

7770 点击 2025-07-11 16:23

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚提出代码HLCE终极基准

大语言模型（LLM）在标准编程基准测试（如 HumanEval,Livecodebench）上已经接近 “毕业”，但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力？

来自主题: AI技术研报

7437 点击 2025-07-07 10:39

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来，基于智能体的强化学习（Agent + RL）与智能体优化（Agent Optimization）在学术界引发了广泛关注。然而，实现具备工具调用能力的端到端智能体训练，首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报

7291 点击 2025-07-05 12:46

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

8413 点击 2025-07-04 09:44