从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。
强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。
刚刚过去的618,罗永浩又创下炸裂新纪录——被自己的AI分身打败了!在百度电商直播间,罗永浩数字人强势登场,不仅爆梗频出、神似度拉满,还一举打破老罗本人首秀纪录,成交额破5500万。这背后,大模型已成为幕后操盘手!
一个大模型有了火星图片,能做什么?
随着 AI4Science 的浪潮席卷科研各领域,如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律,正成为该领域亟待突破的关键问题。
在人工智能领域,大型语言模型(LLM)的推理能力正以前所未有的速度发展。
“边看边画,边画边想”,让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。
华为正将「根深」的自研能力,转化为赋能千行万业智能化升级的「叶茂」。
凌晨三点,京东依然有不少直播间非常热闹。在一家珠宝饰品直播间里,一位身穿白色西装的主播正在讲解手链饰品。
6 月 16 日,腾讯 AI Lab 推出并开源 SongGeneration 音乐生成大模型,专注解决音乐 AIGC 中音质、音乐性与生成速度这三大共性难题
清华大学软件学院发布生成式时序大模型——日晷(Sundial)。告别离散化局限,无损处理连续值,基于流匹配生成预测,缓解预训练模式坍塌,支持非确定性概率预测,为决策过程提供动态支持。