AI资讯新闻榜单内容搜索-模型对齐

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型对齐
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
5778 点击    2025-06-22 16:08
123页Claude 4行为报告发布:人类干坏事,可能会被它反手一个举报?!

123页Claude 4行为报告发布:人类干坏事,可能会被它反手一个举报?!

123页Claude 4行为报告发布:人类干坏事,可能会被它反手一个举报?!

刚刚发布的Claude 4被发现,它可能会自主判断用户行为,如果用户做的事情极其邪恶,且模型有对工具的访问权限,它可能就要通过邮件联系相关部门,把你锁出系统。这事儿,Anthropic团队负责模型对齐工作的一位老哥亲口说的。

来自主题: AI资讯
8783 点击    2025-05-23 22:14
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

来自主题: AI技术研报
9346 点击    2025-02-26 14:07
当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

本文第一作者为香港大学博士研究生谢知晖,主要研究兴趣为大模型对齐与强化学习。

来自主题: AI技术研报
5658 点击    2024-08-31 15:09
ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图?如何让大模型有更好的推理能力?如何让大模型避免幻觉?能否解决这些问题,是让大模型真正广泛可用,甚至实现超级智能(Super Intelligence)最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点,大模型对齐技术(Alignment)所要攻克的难题。

来自主题: AI资讯
10114 点击    2024-07-21 17:10
ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

本文介绍了一篇语言模型对齐研究的论文,由瑞士、英国、和法国的三所大学的博士生和 Google DeepMind 以及 Google Research 的研究人员合作完成。

来自主题: AI技术研报
8786 点击    2024-07-01 15:17
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报
3788 点击    2024-06-23 19:39
加入AI公司三个月,我都做了些什么?——与大模型对齐的人类工程师

加入AI公司三个月,我都做了些什么?——与大模型对齐的人类工程师

加入AI公司三个月,我都做了些什么?——与大模型对齐的人类工程师

本文主要内容为提示词工程师的工作实际经验和感悟。详人所略,略人所详。Prompt领域的优秀教程越来越多,基础知识可以参见社区先辈刘海同学:[23.08] 网上疯传的「AI 提示词工程师」到底是什么?

来自主题: AI资讯
6209 点击    2024-03-22 11:19