AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报
6396 点击    2025-06-09 11:02
扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报
5474 点击    2025-06-09 10:25
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

注意力机制的「平方枷锁」,再次被撬开!一招Fenwick树分段,用掩码矩阵,让注意力焕发对数级效率。更厉害的是,它无缝对接线性注意力家族,Mamba-2、DeltaNet 全员提速,跑分全面开花。长序列处理迈入log时代!

来自主题: AI技术研报
7032 点击    2025-06-08 15:27
告别「失忆」AI!首个大模型记忆操作系统开源框架来了!

告别「失忆」AI!首个大模型记忆操作系统开源框架来了!

告别「失忆」AI!首个大模型记忆操作系统开源框架来了!

该项目来自百家 AI,是北京邮电大学白婷副教授所指导的研究小组, 团队致力于为硅基人类倾力打造情感饱满、记忆超凡的智慧大脑。

来自主题: AI技术研报
7226 点击    2025-06-08 15:07
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。

来自主题: AI技术研报
6547 点击    2025-06-08 14:35
你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%

你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%

你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%

20万次模拟实验,耗资5000美元,证实大模型在多轮对话中的表现明显低于单轮对话!一旦模型的第一轮答案出现偏差,不要试图纠正,而是新开一个对话!

来自主题: AI技术研报
5970 点击    2025-06-07 15:01
生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。 有没有这样一个“AI创作大师”,你只需要用一句话描述脑海中的灵感,它就能自动为你搭建流程、选择工具、反复修改,最终交付高质量的视觉作品呢?

来自主题: AI技术研报
6908 点击    2025-06-07 14:49