AI资讯新闻榜单内容搜索-SFT

Loss收敛不代表学会：腾讯混元ACL 2026拆解SFT训练中15.3%的“假学会”样本

SFT是LLM从“通才”变成“专才”的关键步骤。业界默认做法是：准备标注数据（QA对、指令-回复对等）在基座模型上跑SFT训练。看loss曲线收敛了→认为训练完成。但问题在于：loss是全局平均，掩盖了样本间的差异。loss收敛只代表“大部分样本学会了”——那些始终学不会的样本被淹没了。

来自主题: AI技术研报

8102 点击 2026-07-26 11:25

吃透大模型SFT底层机理：终结实践争议，规避无效算力

长期以来，监督微调（Supervised Fine-Tuning，SFT）一直是深度神经网络中最常用的模型适配手段。在中小规模的传统神经网络中，SFT 通常能够稳定提升下游任务表现。

来自主题: AI技术研报

6829 点击 2026-06-04 08:38

数据比模型更值钱，国内最大的「端侧」训练数据开源了！600B 预训练+千万级 SFT 核心数据配方公开

我去搜了下 MiniCPM5-1B 的数据，发现面壁智能刚刚把背后的核心数据集给开源了。一共是两份 L3 级数据集：Ultra-FineWeb-L3 ：600B tokens，中英文都有，是目前最大的中文开源合成预训练数据集。

来自主题: AI技术研报

10186 点击 2026-05-30 10:06

首次！DeepSeek-V4-Pro全参数后训练，被第三方在国产卡上跑通

近期，深圳河套学院（SLAI）AI训练平台项目团队，联合哈尔滨工业大学（深圳）、深圳大数据研究院、华为GTS（全球技术服务）团队与深智城AI算力平台，仅用1个月，共同基于昇腾910C国产算力集群实现DeepSeek-V4-Pro全参数续训练/SFT稳定运行，完成长稳训练1500+步，训练MFU超30%，关键训练算子效率提升14%。

来自主题: AI技术研报

10692 点击 2026-05-28 14:56

当SFT遇上RL：基于样本学习阶段的动态策略优化机制

过去一段时间里，在围绕大模型推理能力增强的研究中，SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快，能高效吸收高质量推理数据；后者更具探索性，有望推动模型实现复杂推理和分布外泛化。

来自主题: AI技术研报

7469 点击 2026-05-18 09:53

上海AI Lab新研究：SFT能泛化，只要满足这三个条件

随着大模型后训练（Post-training）技术的发展，强化学习（RL）在提升模型推理能力方面的表现备受瞩目。

来自主题: AI技术研报

9636 点击 2026-05-13 09:59

一个框架，重塑具身研发流程：Dexbotic走向具身PyTorch

近日，原力灵机开源的具身智能原生框架 Dexbotic 宣布正式支持以 RLinf 作为其分布式强化学习后端。对具身智能开发者而言，这不仅是一次普通的工程适配，更意味着 VLA 模型研发中长期存在的「SFT 与 RL 割裂」问题，正在被真正打通。

来自主题: AI技术研报

9428 点击 2026-05-12 14:30

用SFT打出RL的效果？微软联合提出高效后训练算法

在大模型后训练阶段，监督微调（SFT）和强化学习（RL）是两根不可或缺的支柱。SFT 利用高质量的离线（Off-policy）数据快速注入知识，但受限于静态数据分布，泛化能力往往容易触及天花板并带来灾难性遗忘；RL 则允许模型在探索中不断自我迭代，产生与当前策略同分布（On-policy）的数据，上限极高，但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报

6183 点击 2026-03-26 10:47

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

“软工任务要改多文件、多轮工具调用，模型怎么学透？高质量训练数据稀缺，又怕轨迹含噪声作弊？复杂 RL 训练成本高，中小团队望而却步？”

来自主题: AI技术研报

6894 点击 2026-01-13 16:36

浅谈一下RLVR&SFT分别对模型显性知识学习和隐参数空间结构扰动背后的一些猜想

最近不论是在学术圈还是产业实践中，对于RLVR和传统SFT之间的区别与联系，以及RL本身基于奖励建模反馈机制并结合不同的策略优化算法过程中对模型显性知识的学习和隐参数空间的变化的讨论热度一直很高。

来自主题: AI技术研报

7386 点击 2025-11-26 09:12