AI资讯新闻榜单内容搜索-训练框架

刚刚，国产预训练具身大模型开源了，让后训练不再是必选项！

2026 年初，国内具身智能赛道掀起了一波开源潮，越来越多团队开始公开自己的视觉-语言-动作（VLA）模型、数据集与训练框架。与此同时，行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上，尤其是在标准化或已训练任务中的表现。

来自主题: AI技术研报

8427 点击 2026-05-29 09:19

全球首次单机降服万亿巨模DeepSeek-V4！RL后训练框架Orbit开源！

从数学、代码、复杂推理，到多轮工具调用，大模型的很多能力的提升都离不开 RL 后训练。但当模型规模进入 MoE 万亿参数级别之后，RL 不再只是一个算法问题，同时更加是一个系统问题。

来自主题: AI技术研报

7273 点击 2026-05-28 14:51

不用人类手写训练框架了！AI自己写代码，训出1B端侧「小钢炮」

你的电脑里，或许很快会住进一只会聊天的「小怪兽」。

来自主题: AI技术研报

9889 点击 2026-05-26 16:06

面壁智能推出AI写的预训练框架ForgeTrain，从此AI开始造自己

造AI这件事，现在的主角变成了AI。

来自主题: AI技术研报

7578 点击 2026-05-26 16:03

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架，由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、统一理解 + 生成（BAGEL、HunyuanImage-3.0）等架构。

来自主题: AI技术研报

7803 点击 2026-05-26 10:26

训练提速4.6倍！FP4+BF16双轨并行，NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力，推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL，通过「FP4 先探索、BF16 再训练」的后训练框架，将达到等效 reward 水平的收敛速度最高提升到 4.64x，在训练速度与对齐效果之间给出了一条更具工程可行性的解法。

来自主题: AI技术研报

9292 点击 2026-04-16 16:07

对标英伟达EgoScale数据路径，清华系孵化星忆科技拿到首轮融资

具身数据层的全球竞赛正在迅速升温。NVIDIA Research在2026年发布EgoScale数据与训练框架，在Ego-centric人类操作视频上训练VLA模型，用 20,854小时带动作标注的第一人称人类视频，观察到数据规模和验证损失之间接近对数线性的scaling law。1X收集人类第一视角及家庭行为数据，通过 Sunday项目采集百万小时级家庭场景视频。

来自主题: AI资讯

7641 点击 2026-03-31 15:03

ICLR 2026 | Shop-R1: 给AI补上「内心戏」，在RL博弈中复刻人类网购脑

传统的 AI 购物助手更像是一个任务完成机器：接到指令，搜索，下单。他们或许能跑通流程，却完全无法理解用户为何在最后一刻因为一条关于 “夹耳朵” 的差评而放弃支付。简而言之，传统的电商 Agent 只是任务导向的（task-oriented），而不是模拟导向的（simulation-oriented）。为此，来自亚马逊（Amazon）的研究团队提出了名为 Shop-R1 的训练框架。

来自主题: AI技术研报

7712 点击 2026-03-21 09:28

卡帕西开源Agent自进化训练框架，5分钟一轮实验，48h内揽星9.5k

大神Karpathy又开源了新项目——一个能够自主进化的AI科研循环系统。这个项目名叫autoresearch，主打让智能体完全自主地搞科研，只要在Markdown文档里写好指令，剩下的流程全都由AI自动完成。

来自主题: AI技术研报

8278 点击 2026-03-09 18:28

腾讯AngelSlim升级，首个集LLM、VLM及语音多模态为一体的投机采样训练框架，推理速度飙升1.8倍

随着大模型步入规模化应用深水区，日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下，从量化、剪枝到模型蒸馏，各类压缩技术竞相涌现，但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报

10850 点击 2026-01-19 08:54