AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
老婆饼里没有老婆,RLHF里也没有真正的RL

老婆饼里没有老婆,RLHF里也没有真正的RL

老婆饼里没有老婆,RLHF里也没有真正的RL

老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。在最近的一篇博客中,德克萨斯大学奥斯汀分校助理教授 Atlas Wang 分享了这样一个观点。

来自主题: AI资讯
7385 点击    2025-01-09 09:41
单张图像探索3D奇境:Wonderland让高质量3D场景生成更高效

单张图像探索3D奇境:Wonderland让高质量3D场景生成更高效

单张图像探索3D奇境:Wonderland让高质量3D场景生成更高效

在人类的认知中,从单张图像中感知并想象三维世界是一项天然的能力。我们能直观地估算距离、形状,猜想被遮挡区域的几何信息。然而,将这一复杂的认知过程赋予机器却充满挑战。

来自主题: AI技术研报
7123 点击    2025-01-08 09:43
多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

在人工智能领域,具有挑战性的模拟环境对于推动多智能体强化学习(MARL)领域的发展至关重要。在合作式多智能体强化学习环境中,大多数算法均通过星际争霸多智能体挑战(SMAC)作为实验环境来验证算法的收敛和样本利用率。

来自主题: AI技术研报
7367 点击    2025-01-05 20:51
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。

来自主题: AI技术研报
6109 点击    2025-01-02 14:19
一张图生成高质量广视野3D场景,还可控制摄像轨迹

一张图生成高质量广视野3D场景,还可控制摄像轨迹

一张图生成高质量广视野3D场景,还可控制摄像轨迹

只需一张图,就能生成高质量、广范围的3D场景! 泰迪熊、花园、山谷都从平面图片变成了仿佛触手可及的立体物品。

来自主题: AI技术研报
6734 点击    2024-12-30 19:13
稚晖君开源百万机器人真机数据集

稚晖君开源百万机器人真机数据集

稚晖君开源百万机器人真机数据集

百万真机数据集开源项目AgiBot World,也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。 该项目由稚晖君具身智能创业项目智元机器人,携手上海AI Lab、国家地方共建人形机器人创新中心以及上海库帕思联合发布。

来自主题: AI资讯
8318 点击    2024-12-30 11:52
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。

来自主题: AI技术研报
6627 点击    2024-12-28 11:41
轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机

轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机

轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机

控制无人机执行敏捷、高机动性的行为是一项颇具挑战的任务。传统的控制方法,比如 PID 控制器和模型预测控制(MPC),在灵活性和效果上往往有所局限。而近年来,强化学习(RL)在机器人控制领域展现出了巨大的潜力。通过直接将观测映射为动作,强化学习能够减少对系统动力学模型的依赖。

来自主题: AI技术研报
4068 点击    2024-12-28 11:35
清华、智谱团队:探索 RLHF 的 scaling laws

清华、智谱团队:探索 RLHF 的 scaling laws

清华、智谱团队:探索 RLHF 的 scaling laws

目前关于 RLHF 的 scaling(扩展)潜力研究仍然相对缺乏,尤其是在模型大小、数据组成和推理预算等关键因素上的影响尚未被系统性探索。 针对这一问题,来自清华大学与智谱的研究团队对 RLHF 在 LLM 中的 scaling 性能进行了全面研究,并提出了优化策略。

来自主题: AI技术研报
8801 点击    2024-12-24 14:56
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破

LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破

LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破

只需几十个样本即可训练专家模型,强化微调RLF能掀起强化学习热潮吗?具体技术实现尚不清楚,AI2此前开源的RLVR或许在技术思路上存在相似之处。

来自主题: AI资讯
7249 点击    2024-12-23 15:58