AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
谈谈「机器人创业」圈子里的鄙视链丨智涌分析

谈谈「机器人创业」圈子里的鄙视链丨智涌分析

谈谈「机器人创业」圈子里的鄙视链丨智涌分析

“搞软件的,鄙视搞硬件的,搞大模型的,看不起强化学习的”,多位行业人士给出了类似的观察。

来自主题: AI资讯
5263 点击    2024-11-25 14:49
DeepSeek 推理模型预览版上线,解密 o1 推理过程

DeepSeek 推理模型预览版上线,解密 o1 推理过程

DeepSeek 推理模型预览版上线,解密 o1 推理过程

今天,DeepSeek 全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。所有用户均可登录官方网页 (chat.deepseek.com),一键开启与 R1-Lite 预览版模型的超强推理对话体验。DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。

来自主题: AI资讯
10046 点击    2024-11-20 23:11
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

DIAMOND是一种新型的强化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中,DIAMOND的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进行决策的能力。

来自主题: AI技术研报
5243 点击    2024-11-18 15:24
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

通过过程奖励模型(PRM)在每一步提供反馈,并使用过程优势验证器(PAV)来预测进展,从而优化基础策略,该方法在测试时搜索和在线强化学习中显示出比传统方法更高的准确性和计算效率,显著提升了解决复杂问题的能力。

来自主题: AI技术研报
5341 点击    2024-11-16 15:41
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

近日,中科大王杰教授团队 (MIRA Lab) 针对离线强化学习数据集存在多类数据损坏这一复杂的实际问题,提出了一种鲁棒的变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性,为机器人控制、自动驾驶等领域的鲁棒学习奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems(NeurIPS 2024)。

来自主题: AI技术研报
3016 点击    2024-11-16 15:13
具身智能基础——强化学习

具身智能基础——强化学习

具身智能基础——强化学习

强化学习中的核心概念是智能体(Agent)和环境(Environment)之间的交互。智能体通过观察环境的状态,选择动作来改变环境,环境根据动作反馈出奖励和新的状态。

来自主题: AI技术研报
4397 点击    2024-11-11 20:56
DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

斯坦福大学奥马尔(Omar)的DSPy研究团队最近更新了他们的项目文档,发了很多不错的案例,以及很多国际知名企业的DSPy用例,这些可能对您的项目有启发。

来自主题: AI资讯
3344 点击    2024-11-04 10:09