AI资讯新闻榜单内容搜索-ROLL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: ROLL
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),

来自主题: AI技术研报
7886 点击    2025-11-11 10:24
让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成

让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成

让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成

想象一下,你正在玩一款开放世界游戏,角色在无缝衔接的世界中自由漫游,游戏引擎必须实时生成一条无限长的视频流来呈现这个虚拟世界。或者,你戴着 AR 眼镜在街头行走,系统需要根据你的视线与动作,即时生成与你环境交互的画面。无论是哪种场景,都对 AI 提出了同样的要求:能实时生成高质量、长时间连贯的视频流。

来自主题: AI技术研报
6085 点击    2025-11-05 09:58
AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!

AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!

AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!

AEPO 系统性揭示了「高熵 Rollout 采样坍缩」和「高熵梯度裁剪」问题,并设计了「动态熵平衡 Rollout 采样」与「熵平衡策略优化」两项核心机制。前者通过熵预监控与连续分支惩罚实现全局与局部探索预算的自适应分配,后者在策略更新阶段引入梯度停止与熵感知优势估计以保留高熵 token 的探索梯度。

来自主题: AI技术研报
7018 点击    2025-11-02 10:32
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。

来自主题: AI技术研报
7651 点击    2025-10-15 12:07
利润率暴涨3倍,硅谷爆火的AI Rollup,要把传统公司改成“AI工厂”

利润率暴涨3倍,硅谷爆火的AI Rollup,要把传统公司改成“AI工厂”

利润率暴涨3倍,硅谷爆火的AI Rollup,要把传统公司改成“AI工厂”

最近,硅谷兴起了一股新玩法,叫 AI Rollup。 简单来说,就是投资机构帮助AI应用公司收购一批传统小公司,然后把 AI 技术塞进去,让它们更高效、更赚钱,然后批量做大。 一个典型案例就是AI客服公司Crescendo。

来自主题: AI资讯
6460 点击    2025-09-17 16:35
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践

近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。

来自主题: AI技术研报
6790 点击    2025-08-22 16:35
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源

在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。

来自主题: AI技术研报
7275 点击    2025-08-13 11:27
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练

过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Model,LLM)后训练阶段的关键技术。

来自主题: AI技术研报
7039 点击    2025-06-25 16:55
图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违

图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违

图灵奖得主Bengio:AI为了“活下去”,对人类指令阳奉阴违

AI为了“活下去”,对人类指令阳奉阴违。智源大会现场,图灵奖得主Yoshua Bengio发表了题为“Avoiding catastrophic risks from uncontrolled AI agency”的主旨演讲,谈到了他目睹到的一些惊人行为。

来自主题: AI资讯
11064 点击    2025-06-07 13:59
尤雨溪宣布:Vue 生态正式引入 AI!

尤雨溪宣布:Vue 生态正式引入 AI!

尤雨溪宣布:Vue 生态正式引入 AI!

在前端开发领域,Vue 框架一直以其易用性和灵活性受到广大开发者的喜爱。而如今,Vue 生态在人工智能(AI)领域的应用上又迈出了重要的一步。尤雨溪近日宣布,Vue、Vite 和 Rolldown 的文档网站均已添加了llms.txt文件,这一举措旨在让大型语言模型(LLM)更方便地理解这些前端技术。

来自主题: AI资讯
9550 点击    2025-05-08 09:38