从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。
强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。
Redis 最近推出向量集合(Vector Set) 功能,这是一种专为向量相似性设计的数据类型,也是 Redis 针对人工智能应用的一个新的选项。这是 Redis 创始人 Salvatore Sanfilippo(“antirez”)自 重新加入 公司以来的第一个重大贡献。
最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。
一切为了「多终端一致体验」和「用户数据闭环」。
DeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。
近年来,AI成为了国内手机市场上的最大热点。根据市研机构IDC的定义,AI手机有几个关键指标和特性:算力大于30TOPS的NPU、支持生成式AI模型的SoC、可以端侧运行各种大模型。而就在过去一年,国内AI手机市场迅猛发力。华为、小米、vivo、OPPO、荣耀等手机厂商,均已迅速在旗下产品上接入各自的云端或端侧AI大模型。
8999!比iPhone 16 Pro还贵,史上起售价最高的国产安卓AI手机来了!
由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者
Decagon 专注于 AI for Customer Support 领域,致力于用 AI Agent 彻底改变客户服务体验。他们打造的不是简单的聊天机器人,而是能不断进化的 AI Agent 引擎,能够真正理解客户的需求并高效地解决问题。
用AI代理技术革新医疗行业。据联合国数据,全球65岁及以上人口将从2020年的7.27亿增至2030年的10亿,占总人口比例从9.3%升至12%。这一人口结构变化使医疗需求大增,也加剧了医疗行业人力资源短缺。预计到2025年,美国注册护士短缺或达45万人,国内全科医生空缺预计达100万。