AI资讯新闻榜单内容搜索-AIR

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

8703 点击 2025-04-15 14:29

就在刚刚，智谱一口气上线并开源了三大类最新的GLM模型：沉思模型GLM-Z1-Rumination 推理模型GLM-Z1-Air 基座模型GLM-4-Air-0414

来自主题: AI资讯

8419 点击 2025-04-15 11:01

简单的任务，传统的Transformer却错误率极高。Meta FAIR团队重磅推出多token注意力机制（MTA），精准捕捉复杂信息，带来模型性能飞升！

来自主题: AI技术研报

6975 点击 2025-04-04 14:14

什么？！用AI Agent搞的小红书账号，竟然14天狂吸5000粉，还开始赚钱了？？？

来自主题: AI资讯

7163 点击 2025-03-31 16:54

苹果耳机和手表，也要装上摄像头了。为啥？要更AI。彭博社名记古尔曼接连爆料，苹果打算把AirPods和Apple Watch做成智能穿戴。为了让AI拥有环境感知能力，加装摄像头就成了其中的一个重要环节。

来自主题: AI资讯

8316 点击 2025-03-24 11:49

清华智能产业研究院（AIR）博三在读，去年六月份，出于对语言模型 LLM 的强烈兴趣，加入了字节 as Top Seed Intern，在人工智能的最前沿进行探索。刚好这个话题和我现在做的工作强相关，我分享一下自己的观点和亲身体验。

来自主题: AI资讯

9870 点击 2025-03-23 15:09

DeepSeek、通义千问等大模型 + AR眼镜，打开GTC老黄演讲的姿势，可以是这样：

来自主题: AI资讯

6492 点击 2025-03-21 12:25

一个超越DeepSeek GRPO的关键RL算法出现了！这个算法名为DAPO，字节、清华AIR联合实验室SIA Lab出品，现已开源。禹棋赢，01年生，本科毕业于哈工大，直博进入清华AIR，目前博士三年级在读。去年年中，他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。

来自主题: AI资讯

9608 点击 2025-03-20 23:06

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率，不过其论文中似乎还缺少一些关键细节，让人难以复现出大规模和工业级的强化学习系统。

来自主题: AI技术研报

6391 点击 2025-03-18 17:14

智源联手多所顶尖高校发布的多模态向量模型BGE-VL，重塑了AI检索领域的游戏规则。它凭借独创的MegaPairs合成数据技术，在图文检索、组合图像检索等多项任务中，横扫各大基准刷新SOTA。

来自主题: AI技术研报

5502 点击 2025-03-07 10:34