AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

来自主题: AI资讯
5134 点击    2024-09-16 19:45
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题,明确的正确答案> ,再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索,只要提供足够的计算量用于搜索,总可以搜到最后的正确路径。然而,这样只是建立起问题和答案之间的更好的联系,如何泛化到更复杂的问题场景,技术远不止这么简单。

来自主题: AI技术研报
6682 点击    2024-09-15 14:41
李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

World Labs 的创始团队中,有 ImageNet、NeRF、Style Transfer 和 Gaussian Splats 作者在列。

来自主题: AI资讯
4969 点击    2024-09-14 15:56
北大提出首个通用指令导航大模型系统 | CoRL 24

北大提出首个通用指令导航大模型系统 | CoRL 24

北大提出首个通用指令导航大模型系统 | CoRL 24

如今这种科幻电影中的场景正在变为现实,来自北京大学的助理教授、博士生导师董豪团队近日提出首个通用指令导航大模型系统InstructNav。

来自主题: AI资讯
3841 点击    2024-09-12 15:22
LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 Orion。

来自主题: AI资讯
7616 点击    2024-08-31 11:19