AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等学术机构学者组成的开源组织,致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报
4302 点击    2024-10-22 14:38
谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》建议每个人都要读一遍

谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》建议每个人都要读一遍

谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》建议每个人都要读一遍

在当今科技界,关于人工智能是否被过度炒作的争论从未停息。然而,很少有像谷歌 DeepMind 的安全研究专家和机器学习科学家 Nicholas Carlini 这样的专家,用亲身经历为我们提供了一个独特的视角。通过他的文章,我们看到了大型语言模型(LLM)在实际应用中的强大能力和多样性。这些并非空洞的营销宣传,而是切实可以改变工作方式、提高生产效率、激发创意的工具。

来自主题: AI资讯
6372 点击    2024-10-16 16:26
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现?

来自主题: AI技术研报
4376 点击    2024-10-14 15:37
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出,常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题,学术界和工业界提出了一系列对齐(Alignment)技术,旨在优化模型的输出,使其更加符合人类的价值观和期望。

来自主题: AI技术研报
7694 点击    2024-10-10 12:21
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

现实世界中的强化学习在应用过程中也面临着巨大的挑战,尤其是如何保证系统的安全性。为了解决这一问题,安全强化学习(Safe Reinforcement Learning, Safe RL)应运而生,成为当前学术界和工业界关注的焦点。

来自主题: AI技术研报
3848 点击    2024-10-08 17:23
颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

“通用人工智能(AGI)的设计和开发,需要进行根本性改变。” 人工智能(AI)模型的参数规模越大,生成的答案就越准确?就更加可信? 还真不一定!

来自主题: AI资讯
3140 点击    2024-09-27 10:31