AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

“通用人工智能(AGI)的设计和开发,需要进行根本性改变。” 人工智能(AI)模型的参数规模越大,生成的答案就越准确?就更加可信? 还真不一定!

来自主题: AI资讯
3141 点击    2024-09-27 10:31
AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

虽然 RLHF 的初衷是用来控制人工智能(AI),但实际上它可能会帮助 AI 欺骗人类。

来自主题: AI资讯
4545 点击    2024-09-23 15:17
李飞飞创业之后首个专访:视觉空间智能与语言一样根本

李飞飞创业之后首个专访:视觉空间智能与语言一样根本

李飞飞创业之后首个专访:视觉空间智能与语言一样根本

不久之前,李飞飞教授的空间智能创业公司 World Labs 以及全明星的创业阵容正式亮相。 随后,李飞飞与另一位联合创始人 Justin Johnson 接受了 a16z 的专访。

来自主题: AI资讯
3593 点击    2024-09-23 15:12
OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。

来自主题: AI技术研报
7758 点击    2024-09-21 14:20
黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

来自主题: AI资讯
5037 点击    2024-09-16 19:45
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题,明确的正确答案> ,再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索,只要提供足够的计算量用于搜索,总可以搜到最后的正确路径。然而,这样只是建立起问题和答案之间的更好的联系,如何泛化到更复杂的问题场景,技术远不止这么简单。

来自主题: AI技术研报
6571 点击    2024-09-15 14:41