AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

World Labs 的创始团队中,有 ImageNet、NeRF、Style Transfer 和 Gaussian Splats 作者在列。

来自主题: AI资讯
4845 点击    2024-09-14 15:56
北大提出首个通用指令导航大模型系统 | CoRL 24

北大提出首个通用指令导航大模型系统 | CoRL 24

北大提出首个通用指令导航大模型系统 | CoRL 24

如今这种科幻电影中的场景正在变为现实,来自北京大学的助理教授、博士生导师董豪团队近日提出首个通用指令导航大模型系统InstructNav。

来自主题: AI资讯
3755 点击    2024-09-12 15:22
LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 Orion。

来自主题: AI资讯
7507 点击    2024-08-31 11:19
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature

深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature

深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature

人工神经网络、深度学习方法和反向传播算法构成了现代机器学习和人工智能的基础。但现有方法往往是一个阶段更新网络权重,另一个阶段在使用或评估网络时权重保持不变。这与许多需要持续学习的应用程序形成鲜明对比。

来自主题: AI技术研报
7773 点击    2024-08-29 17:01
RL 是 LLM 的新范式

RL 是 LLM 的新范式

RL 是 LLM 的新范式

AGI 正在迎来新范式,RL 是 LLM 的秘密武器。

来自主题: AI资讯
8267 点击    2024-08-27 10:36
Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

「相比于强化学习(RL),我确实更喜欢模型预测控制(MPC)。至少从 2016 年起,我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下,模型预测控制是零样本的:如果你有一个良好的世界模型和一个良好的任务目标,模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的,但它的使用应该是最后的手段。」

来自主题: AI资讯
7373 点击    2024-08-26 16:25
一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐

来自主题: AI资讯
5793 点击    2024-08-22 17:04