AI资讯新闻榜单内容搜索-后训练

具身VLA后训练：TeleAI提出潜空间引导的VLA跨本体泛化方法

在多模态大模型的基座上，视觉 - 语言 - 动作（Visual-Language-Action, VLA）模型使用大量机器人操作数据进行预训练，有望实现通用的具身操作能力。

来自主题: AI技术研报

6466 点击 2025-09-08 15:20

深度｜成立一年再获数千万融资，坚持结果交付，坚持端对端多智能体

近期，AI营销公司橙果视界（PhotoG母公司）宣布完成数千万元新一轮融资，由云天使基金领投，力合创投和金沙江联合资本跟投。本轮融资将用于进一步扩大行业数据规模，推进垂直行业后训练模型迭代，进一步加快全链路营销智能体在多行业的业务落地，持续探索能感知、决策、创造并执行的商业大脑。

来自主题: AI资讯

8532 点击 2025-09-01 15:06

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

GRPO 就像一个树节点，从这里开始开枝散叶。

来自主题: AI技术研报

9505 点击 2025-09-01 14:51

WRC整理床铺机器人背后模型曝光！端到端双系统全身智能VLA，仅凭少量微调就能get任务

仅凭少量后训练微调，机器人就能完全自主、连续不断地完成床铺整理任务。而它的每一步思考与动作实时投放在大屏幕上。

来自主题: AI资讯

6618 点击 2025-08-12 11:18

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了！上海创智学院、上海交通大学（GAIR Lab）发布MegaScience。该数据集包含约125万条问答对及其参考答案，广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域，旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。

来自主题: AI技术研报

7091 点击 2025-08-09 15:52

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

来自主题: AI技术研报

8955 点击 2025-08-08 11:22

多模态后训练反常识：长思维链SFT和RL的协同困境

在语言模型领域，长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合堪称黄金搭档 —— 先让模型学习思考模式，再用奖励机制优化输出，性能通常能实现叠加提升。

来自主题: AI技术研报

7783 点击 2025-08-02 12:49

ACL'25最佳论文独家解读：大模型有「抗改造」基因，现有后训练范式失灵预警

尽管全球科技界正热烈庆祝 GPT-4、DeepSeek 等大模型展现出的惊艳能力，但一个根本性问题仍未被真正解决：这些 AI 模型是否真正理解人类的指令与意图？

来自主题: AI技术研报

7554 点击 2025-08-01 12:27

大模型竞赛转向：决胜关键为何是“后训练”？

随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透，AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练（Post-training），正从过去锦上添花的“调优”环节，演变为决定模型最终价值的“主战场”。

来自主题: AI技术研报

7902 点击 2025-07-20 12:30

Perplexity CEO罕见发声：Kimi K2测试表现良好，考虑基于其进行后训练！

美国AI初创公司 Perplexity 的联合创始人兼首席执行官Aravind Srinivas今日在社交平台发文，首次公开评价中国大模型“月之暗面”Kimi K2。他表示，Kimi K2 在内部测试中表现良好，Perplexity 正在考虑在其基础上进行后训练。

来自主题: AI资讯

9608 点击 2025-07-14 10:35