AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。

来自主题: AI技术研报
9123 点击    2025-06-07 14:05
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

在文本推理领域,以GPT-o1、DeepSeek-R1为代表的 “慢思考” 模型凭借显式反思机制,在数学和科学任务上展现出远超 “快思考” 模型(如 GPT-4o)的优势。

来自主题: AI技术研报
6315 点击    2025-06-07 11:00
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报
7822 点击    2025-06-07 10:35
苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果最新研究揭示大推理模型(LRM)在高复杂度任务中普遍「推理崩溃」:思考路径虽长,却常在关键时刻放弃。即便给予明确算法提示,模型亦无法稳定执行,暴露推理机制的局限性。

来自主题: AI技术研报
6199 点击    2025-06-06 16:14
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck

来自主题: AI技术研报
4368 点击    2025-06-06 12:08
RAR让Agent学会「成为角色」那样思考,而不仅是「像角色」一样说话 |最新

RAR让Agent学会「成为角色」那样思考,而不仅是「像角色」一样说话 |最新

RAR让Agent学会「成为角色」那样思考,而不仅是「像角色」一样说话 |最新

您有没有发现,现在市面上的AI角色扮演的Agent总有种「隔靴搔痒」的感觉?用户和AI聊天时,AI虽然能说出符合角色设定的话,但总觉得缺了点什么——就像演员在背台词,而不是真的在思考。感觉很假,也很奇怪。

来自主题: AI技术研报
6296 点击    2025-06-06 12:02
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。

来自主题: AI技术研报
5939 点击    2025-06-06 11:08
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

清华与蚂蚁联合开源AReaL-boba²,实现全异步强化学习训练系统,有效解耦模型生成与训练流程,GPU利用率大幅提升。14B模型在多个代码基准测试中达到SOTA,性能接近235B模型。异步RL训练上大分!

来自主题: AI技术研报
5173 点击    2025-06-05 16:30