AI资讯新闻榜单内容搜索-PPO

正浩、OPPO前高管创业AI智能运动手表，天使轮估值1亿美金 | 早期项目

硬氪获悉，AI智能运动穿戴品牌「苔源MossCode」近日完成数千万元天使轮融资，本轮由XVC和清流资本共同投资。

来自主题: AI资讯

5430 点击 2026-02-11 14:01

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

6592 点击 2026-02-11 13:58

英国想当“AI超级大国”，结果卡在这儿了...

全球人工智能（AI）热潮下，英国斯塔默政府在今年1月推出了雄心勃勃的“人工智能机遇行动计划”（AI Opportunities Action Plan），目标是成为“人工智能超级大国”。

来自主题: AI资讯

7148 点击 2025-12-29 15:08

OPPO 姜昱辰：从 GUI 到 Agent，AI 手机交互革命的「终局」思考

AI 手机，做真正懂你的超级助理。

来自主题: AI资讯

10316 点击 2025-12-08 14:15

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

8615 点击 2025-12-08 14:13

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

8693 点击 2025-11-11 10:24

医疗AI独角兽Hippocratic AI拿下8亿融资，估值250亿，谷歌英伟达都投了

智东西11月4日消息，11月3日，美国生成式AI医疗独角兽Hippocratic AI宣布完成1.26亿美元（约合人民币8.97亿元）的C轮融资，谷歌母公司Alphabet旗下独立成长基金CapitalG参投。此轮融资也让该公司的估值达35亿美元（约合人民币249.24亿元），总融资额达到4.04亿美元（约合人民币28.77亿美元）。

来自主题: AI资讯

8066 点击 2025-11-05 11:54