AI资讯新闻榜单内容搜索-PPO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: PPO
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报
6592 点击    2026-02-11 13:58
英国想当“AI超级大国”,结果卡在这儿了...

英国想当“AI超级大国”,结果卡在这儿了...

英国想当“AI超级大国”,结果卡在这儿了...

全球人工智能(AI)热潮下,英国斯塔默政府在今年1月推出了雄心勃勃的“人工智能机遇行动计划”(AI Opportunities Action Plan),目标是成为“人工智能超级大国”。

来自主题: AI资讯
7148 点击    2025-12-29 15:08
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

来自主题: AI技术研报
8615 点击    2025-12-08 14:13
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),

来自主题: AI技术研报
8693 点击    2025-11-11 10:24
医疗AI独角兽Hippocratic AI拿下8亿融资,估值250亿,谷歌英伟达都投了

医疗AI独角兽Hippocratic AI拿下8亿融资,估值250亿,谷歌英伟达都投了

医疗AI独角兽Hippocratic AI拿下8亿融资,估值250亿,谷歌英伟达都投了

智东西11月4日消息,11月3日,美国生成式AI医疗独角兽Hippocratic AI宣布完成1.26亿美元(约合人民币8.97亿元)的C轮融资,谷歌母公司Alphabet旗下独立成长基金CapitalG参投。此轮融资也让该公司的估值达35亿美元(约合人民币249.24亿元),总融资额达到4.04亿美元(约合人民币28.77亿美元)。

来自主题: AI资讯
8066 点击    2025-11-05 11:54
让LLM不再话痨,快手HiPO框架来了

让LLM不再话痨,快手HiPO框架来了

让LLM不再话痨,快手HiPO框架来了

当用户向大语言模型提出一个简单问题,比如「单词 HiPPO 里有几个字母 P?」,它却正襟危坐,开始生成一段冗长的推理链:

来自主题: AI技术研报
8646 点击    2025-11-04 10:44
多轮Agent训练遇到级联失效?熵控制强化学习来破局

多轮Agent训练遇到级联失效?熵控制强化学习来破局

多轮Agent训练遇到级联失效?熵控制强化学习来破局

在训练多轮 LLM Agent 时(如需要 30 + 步交互才能完成单个任务的场景),研究者遇到了一个严重的训练不稳定问题:标准的强化学习方法(PPO/GRPO)在稀疏奖励环境下表现出剧烈的熵值震荡,导致训练曲线几乎不收敛。

来自主题: AI技术研报
6733 点击    2025-10-19 12:06
OPPO新AI操作系统,走出屏幕“指哪答哪”,嘈杂环境只听你声音

OPPO新AI操作系统,走出屏幕“指哪答哪”,嘈杂环境只听你声音

OPPO新AI操作系统,走出屏幕“指哪答哪”,嘈杂环境只听你声音

OPPO新一代AIOS来了!ColorOS 16当中,“一键闪记”和“一键问屏”两项功能有了新玩法。你点餐时产生的取餐码和账单,只要按下按钮就能帮你记住,不用再忘记之后反复查找。

来自主题: AI资讯
10029 点击    2025-10-15 12:41