AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机制。

来自主题: AI技术研报
7020 点击    2025-10-06 13:22
你敢信?GPT-5的电脑操作水平只比人类低2%了

你敢信?GPT-5的电脑操作水平只比人类低2%了

你敢信?GPT-5的电脑操作水平只比人类低2%了

Agent(智能体)是最近一段时间的人工智能热点之一,将大语言模型的能力与工具调用、环境交互和自主规划结合起来,使其能够像虚拟助理一样完成复杂任务。 其中「计算机使用智能

来自主题: AI技术研报
8910 点击    2025-10-05 21:34
华人主导谷歌SLED,论文登顶会!一键让模型学会自救

华人主导谷歌SLED,论文登顶会!一键让模型学会自救

华人主导谷歌SLED,论文登顶会!一键让模型学会自救

大模型最让人头疼的毛病,就是一本正经地「瞎编」。过去,只能靠检索补丁或额外训练来修。可在NeurIPS 2024 上,谷歌抛出的新方法SLED却告诉我们:模型其实知道,只是最后一步忘了。如果把每一层的「声音」都纳入考量,它就能从幻觉中被拉回到事实。

来自主题: AI技术研报
6962 点击    2025-10-03 15:43
NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集

NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集

NIPS 2025 Spotlight | 港大提出TreeSynth方法,一句话生成百万规模数据集

“TreeSynth” 就这样起源于作者们最初的构想:“如何通过一句任务描述生成海量数据,完成模型训练?” 同时,大规模 scalibility 对合成数据的多样性提出了新的要求。

来自主题: AI技术研报
7766 点击    2025-10-03 14:45
100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校,伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者,共同撰写并发布了长达百页的综述:《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

来自主题: AI技术研报
7676 点击    2025-10-03 14:15
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石

梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石

梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石

只让机器人或虚拟智能体「想象」,不让它们和物理世界交互,它们也能学到和世界交互的技能?谷歌的世界模型 Dreamer 4 为这一想法提供了新的支撑。为了在具身环境中解决复杂任务,智能体需要深入理解世界并选择成功的行动。世界模型通过学习从智能体(如机器人或电子游戏玩家)的视角预测潜在行动的未来结果,为实现这一目标提供了一种有前景的方法。

来自主题: AI技术研报
8251 点击    2025-10-03 14:07
Murati翁荔陈丹琦公司发布首个产品,让大模型微调门槛暴降,要重新发明一个OpenAI

Murati翁荔陈丹琦公司发布首个产品,让大模型微调门槛暴降,要重新发明一个OpenAI

Murati翁荔陈丹琦公司发布首个产品,让大模型微调门槛暴降,要重新发明一个OpenAI

Thinking Machines Lab发布首个产品:Thinker,让模型微调变得像改Python代码一样简单。也算是终于摘掉了“0产品0收入估值840亿”的帽子。Tinker受到了业界的密切关注。AI基础设施公司Anyscale的CEO Robert Nishihara等beta测试者表示,尽管市面上有其他微调工具,但Tinker在“抽象化和可调性之间取得了卓越的平衡”

来自主题: AI资讯
9469 点击    2025-10-03 11:53
英伟达一口气开源多项机器人技术,与迪士尼合作研发物理引擎也开源了

英伟达一口气开源多项机器人技术,与迪士尼合作研发物理引擎也开源了

英伟达一口气开源多项机器人技术,与迪士尼合作研发物理引擎也开源了

这次英伟达可谓是“全家桶”式发布:不仅有让机器人拥有”物理直觉”的Newton引擎,还有赋予机器人人类推理能力的Isaac GR00T N1.6基础模型,以及能够生成海量训练数据的Cosmos世界基础模型,直接瞄准了机器人研发中最头疼的几个问题。

来自主题: AI资讯
7629 点击    2025-10-03 11:47
斯坦福洗碗机器人新作!灵巧手跟人学采茶做早餐,CoRL 2025提名最佳论文

斯坦福洗碗机器人新作!灵巧手跟人学采茶做早餐,CoRL 2025提名最佳论文

斯坦福洗碗机器人新作!灵巧手跟人学采茶做早餐,CoRL 2025提名最佳论文

来自斯坦福大学、哥伦比亚大学、摩根大通AI研究院、卡耐基梅隆大学、英伟达提出了一种数据采集与策略学习框架DexUMI——利用人手作为自然接口将灵巧操作技能迁移至多种灵巧手。该框架通过硬件与软件的双重适配,最大限度缩小人手与各类灵巧手之间的具身差异。

来自主题: AI资讯
9424 点击    2025-10-03 11:46