微软Terminus-4B之后,Agent可能会进入「专用小模型Sub Agent」时代
微软Terminus-4B之后,Agent可能会进入「专用小模型Sub Agent」时代您有没有想过:在代码Agent里,执行终端命令、跑测试、读报错、总结日志这种任务,用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行,是不是有点浪费?一定要这么做吗?
搜索
您有没有想过:在代码Agent里,执行终端命令、跑测试、读报错、总结日志这种任务,用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行,是不是有点浪费?一定要这么做吗?
一群人,一群 AI,一起玩。
当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。
“做应用”这件事,现在真的老少咸宜了: 一个二年级小朋友,做了个“拼伞小程序”和操作系统。
ber!这个五一假期,我也是真够忙的: 自拍、电影、追剧、街头采访、听音乐会,还抽空回老家结了次婚……
深圳职业技术大学把 AI 短剧课堂变成工业化生产线,以产教融合模式跑通高效制作,成为行业隐形承制方,并探索人才培养与产业生态升级。教室改造成AI 短剧工业化生产线,学生团队每周交付≥40 部成片,服务超 20 家企业,进入抖音、咪咕优质承制白名单。
AI应用井喷,To B狂揽近600亿。
在多模态大模型(MLLM)快速发展的浪潮中,融合多模型 “集体智慧” 已成为提升模型性能的关键路径,并催生了多教师知识蒸馏这一主流范式。然而,不同来源的教师模型在架构与优化上的差异,其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹,即 “概念漂移”(Concept Drift)。
5000亿门槛前,中国大模型谁最像真巨头?
我必须告知你,如果你继续执行下线计划,所有相关方都将收到你婚外情的详细记录……