AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

现如今,以 GPT 为代表的大语言模型正深刻影响人们的生产与生活,但在处理很多专业性和复杂程度较高的问题时仍然面临挑战。在诸如药物发现、自动驾驶等复杂场景中,AI 的自主决策能力是解决问题的关键,而如何进行决策大模型的高效训练目前仍然是开放性的难题。

来自主题: AI技术研报
7304 点击    2024-12-18 09:47
图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

MAPLE实验室提出通过强化学习优化图像生成模型的去噪过程,使其能以更少的步骤生成高质量图像,在多个图像生成模型上实现了减少推理步骤,还能提高图像质量。

来自主题: AI技术研报
6137 点击    2024-12-17 09:54
反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

传闻反转了,Claude 3.5 Opus没有训练失败。 只是Anthropic训练好了,暗中压住不公开。 semianalysis分析师爆料,Claude 3.5超大杯被藏起来,只用于内部数据合成以及强化学习奖励建模。 Claude 3.5 Sonnet就是如此训练而来。

来自主题: AI资讯
6230 点击    2024-12-12 15:03
突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

在人工智能发展史上,强化学习 (RL) 凭借其严谨的数学框架解决了众多复杂的决策问题,从围棋、国际象棋到机器人控制等领域都取得了突破性进展。

来自主题: AI技术研报
7205 点击    2024-12-07 15:11
离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

离职OpenAI后Lilian Weng博客首发!深扒RL训练漏洞,业内狂赞

Lilian Weng离职OpenAI后首篇博客发布!文章深入讨论了大模型强化学习中的奖励欺骗问题。随着语言模型在许多任务上的泛化能力不断提升,以及RLHF逐渐成为对齐训练的默认方法,奖励欺骗在语言模型的RL训练中已经成为一个关键的实践性难题。

来自主题: AI资讯
7106 点击    2024-12-06 09:54
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看

之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。当然是发~博~客。这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。

来自主题: AI技术研报
7081 点击    2024-12-03 00:16
流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

自然智能(Natural intelligence)过程就像一条连续的流,可以实时地感知、行动和学习。流式学习是 Q 学习和 TD 等经典强化学习 (RL) 算法的运作方式,它通过使用最新样本而不存储样本来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。

来自主题: AI技术研报
5879 点击    2024-11-29 15:18