AI资讯新闻榜单内容搜索-TIM

对话百度文库：不做大模型能直接做的事，能力积累换来竞争壁垒｜AI产品Time

随着AI时代的到来，上一代取得巨大成功的互联网产品都在紧密地结合大模型的能力，为用户提供焕然一新的服务和产品体验。这其中，部分产品走在了变革前沿，不仅利用大模型完成了产品重塑，还借助AI开启了产品的第二增长曲线。

来自主题: AI资讯

8136 点击 2025-08-13 16:53

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。

来自主题: AI技术研报

7767 点击 2025-08-13 16:03

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。

来自主题: AI技术研报

8899 点击 2025-08-13 11:27

蛋白质基座的GPT时代来了？！

蛋白质模型的GPT时刻来了！清华大学智能产业研究院（AIR）周浩副教授课题组联合上海人工智能实验室发布了AMix-1：首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系统化方法论来构建蛋白质基座模型。

来自主题: AI技术研报

8214 点击 2025-08-10 16:00

麻省理工学院推出AI学习平台MIT Learn

近日，麻省理工学院也推出了一个AI学习平台。这个名叫MIT Learn的平台提供超过12700个学习资源，其中大部分是免费的。这个名叫MIT Learn的平台提供超过12700个学习资源，其中大部分是免费的。

来自主题: AI资讯

10010 点击 2025-08-08 10:28

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

本文主要介绍 xML 团队的论文：Discrete Diffusion in Large Language and Multimodal Models: A Survey。

来自主题: AI技术研报

11377 点击 2025-07-17 10:42

比Adam更有效，POET从谱不变原理出发，让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生，Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员

来自主题: AI技术研报

10461 点击 2025-07-15 10:11

感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校（UIUC）与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报

8767 点击 2025-07-11 16:23

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚提出代码HLCE终极基准

大语言模型（LLM）在标准编程基准测试（如 HumanEval,Livecodebench）上已经接近 “毕业”，但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力？

来自主题: AI技术研报

8349 点击 2025-07-07 10:39

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来，基于智能体的强化学习（Agent + RL）与智能体优化（Agent Optimization）在学术界引发了广泛关注。然而，实现具备工具调用能力的端到端智能体训练，首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报

8517 点击 2025-07-05 12:46