AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

让智能体自己摸索新方法,还模仿自己的成功经验。腾讯优图实验室开源强化学习算法——SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。

来自主题: AI技术研报
7057 点击    2025-10-13 15:45
刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人

刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人

刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人

风雨飘摇中的Meta,于昨天发布了一篇重量级论文,提出了一种被称作「早期经验」(Early Experience)的全新范式,让AI智能体「无师自通」,为突破强化学习瓶颈提供了一种新思路。

来自主题: AI技术研报
8714 点击    2025-10-12 11:01
开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座易主了,谁能想到新SOTA是快手

开源编程模型王座,再度易主!来自快手的KAT-Dev-72B-Exp,在SWE-Bench认证榜单以74.6%的成绩夺得开源模型第一。KAT-Dev-72B-Exp是KAT-Coder模型的实验性强化学习版本。

来自主题: AI资讯
10887 点击    2025-10-11 15:57
任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码

任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码

任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码

AI Agent已逐渐从科幻走进现实!不仅能够执行编写代码、调用工具、进行多轮对话等复杂任务,甚至还可以进行端到端的软件开发,已经在金融、游戏、软件开发等诸多领域落地应用。

来自主题: AI技术研报
8408 点击    2025-10-11 11:44
Qwen要做机器人了:林俊旸官宣成立具身智能团队

Qwen要做机器人了:林俊旸官宣成立具身智能团队

Qwen要做机器人了:林俊旸官宣成立具身智能团队

昨天,阿里通义千问大语言模型负责人林俊旸在社交媒体上官宣,他们在 Qwen 内部组建了一个小型机器人、具身智能团队,同时表示「多模态基础模型正转变为基础智能体,这些智能体可以利用工具和记忆通过强化学习进行长程推理,它们绝对应该从虚拟世界走向物理世界」。

来自主题: AI资讯
8372 点击    2025-10-09 14:24
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

具体而言,Verlog 是一个多轮强化学习框架,专为具有高度可变回合(episode)长度的长时程(long-horizon) LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则,引入了一系列专门优化手段,从而在任务跨度从短暂交互到数百回合时,依然能够实现稳定而高效的训练。

来自主题: AI技术研报
6243 点击    2025-10-09 11:16
从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」

来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案:UserBench —— 首次将 “用户特性” 制度化,构建交互评测环境,用于专门检验大模型是否真正 “懂人”;UserRL —— 在 UserBench 及其他标准化 Gym 环境之上,搭建统一的用户交互强化学习框架,并系统探索以用户为驱动的奖励建模。

来自主题: AI技术研报
8536 点击    2025-10-08 11:45
清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华大学朱军教授团队,NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化

来自主题: AI技术研报
9627 点击    2025-10-08 11:43
复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机制。

来自主题: AI技术研报
6951 点击    2025-10-06 13:22