AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
LeCun新作:分层世界模型,数据驱动的人型机器人控制

LeCun新作:分层世界模型,数据驱动的人型机器人控制

LeCun新作:分层世界模型,数据驱动的人型机器人控制

在复杂的物理世界中,人型机器人的全身控制一直是个难题,现有的强化学习做出的效果有时会比较抽象。近日,LeCun参与的一项工作给出了基于数据驱动的全新解决方案。

来自主题: AI技术研报
9782 点击    2024-06-04 15:43
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面,一种有效的方法是根据人类反馈的强化学习(RLHF)。尽管经典 RLHF 方法的结果很出色,但其多阶段的过程依然带来了一些优化难题,其中涉及到训练一个奖励模型,然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报
9619 点击    2024-05-26 13:45
世界模型也扩散!训练出的智能体竟然不错

世界模型也扩散!训练出的智能体竟然不错

世界模型也扩散!训练出的智能体竟然不错

在图像生成领域占据主导地位的扩散模型,开始挑战强化学习智能体。

来自主题: AI技术研报
9598 点击    2024-05-24 11:22
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

基于人类反馈的强化学习 (RLHF) 使得大语言模型的输出能够更加符合人类的目标、期望与需求,是提升许多闭源语言模型 Chat-GPT, Claude, Gemini 表现的核心方法之一。

来自主题: AI资讯
5401 点击    2024-05-18 11:18
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

在对齐大型语言模型(LLM)与人类意图方面,最常用的方法必然是根据人类反馈的强化学习(RLHF)

来自主题: AI资讯
3938 点击    2024-04-24 10:59
Science Robotics封面!DeepMind强化学习打造超一流机器人球员

Science Robotics封面!DeepMind强化学习打造超一流机器人球员

Science Robotics封面!DeepMind强化学习打造超一流机器人球员

AI和机器人专家的长远目标,是创造出具有一般具身智能的代理,它们能够像动物或人类一样,在物理世界中灵活、巧妙地行动

来自主题: AI资讯
8389 点击    2024-04-14 15:55
一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%

一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%

一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%

你敢信?一款手游里藏着400+个AI角色,且各自有各自的性格……这就是腾讯在一年一度的“游戏界春晚”GDC上展示的一场技术肌肉秀——《火影忍者》手游相关负责人介绍了大规模强化学习AI训练系统,该方法的训练成本和时间比传统的训练方案减少90%。

来自主题: AI资讯
8850 点击    2024-04-01 11:13
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。

来自主题: AI技术研报
5378 点击    2024-03-15 15:38