AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出,常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题,学术界和工业界提出了一系列对齐(Alignment)技术,旨在优化模型的输出,使其更加符合人类的价值观和期望。

来自主题: AI技术研报
7808 点击    2024-10-10 12:21
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

现实世界中的强化学习在应用过程中也面临着巨大的挑战,尤其是如何保证系统的安全性。为了解决这一问题,安全强化学习(Safe Reinforcement Learning, Safe RL)应运而生,成为当前学术界和工业界关注的焦点。

来自主题: AI技术研报
3966 点击    2024-10-08 17:23
颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

“通用人工智能(AGI)的设计和开发,需要进行根本性改变。” 人工智能(AI)模型的参数规模越大,生成的答案就越准确?就更加可信? 还真不一定!

来自主题: AI资讯
3212 点击    2024-09-27 10:31
AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

虽然 RLHF 的初衷是用来控制人工智能(AI),但实际上它可能会帮助 AI 欺骗人类。

来自主题: AI资讯
4654 点击    2024-09-23 15:17
李飞飞创业之后首个专访:视觉空间智能与语言一样根本

李飞飞创业之后首个专访:视觉空间智能与语言一样根本

李飞飞创业之后首个专访:视觉空间智能与语言一样根本

不久之前,李飞飞教授的空间智能创业公司 World Labs 以及全明星的创业阵容正式亮相。 随后,李飞飞与另一位联合创始人 Justin Johnson 接受了 a16z 的专访。

来自主题: AI资讯
3733 点击    2024-09-23 15:12
OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。

来自主题: AI技术研报
7874 点击    2024-09-21 14:20