
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
可灵2.5,来了。 不仅已经对可灵的超级创作者们正式进行灰度内测,还在这个周末,登上了釜山国际电影节。
AIGC正在迎来平台层面的集体热捧。 9月16日,腾讯视频官宣首届AI短片创作大赛,面向全球创作者征集AI短片。而事实上,今年以来,爱奇艺、快手、抖音等多个平台均纷纷加码AIGC相关扶持与创投计划。相较去年偏重于“创意尝鲜”,平台今年的重点已明显转向“商业落地”的探索。
CBD 算法则是快手商业化算法团队在本月初公布的新方法,全名 Causal auto-Bidding method based on Diffusion completer-aligner,即基于扩散式补全器-对齐器的因果自动出价方法。
人工996,智能体就能做了!刚刚,「基础设施智能体蜂群」正式诞生,多智能体系统,打造感知-决策-执行闭环,彻底颠覆传统运维模式。从此,智能体专业团队加持,集群排障效率起飞。
美国时间 9 月 22 日,北京时间 9 月 23 日凌晨,英伟达和 OpenAI 突然宣布战略合作伙伴和重大投资。
“优时映画”正在通过AI工具,把动漫改编的周期缩短到1-2个月。
近日,Sensor Tower 发布《2025 年 AI 应用市场调查报告》,报告中提到,移动端 AI 产品 IAP 收入在 2025 年上半年半年度环比增长率为 100%,但具体到产品上,全球 IAP 收入 Top10 全部都是 ChatBot,相比于 Web 端的百花齐放,App 端能赚到钱的 AI 原生产品依旧单一。
2017 年,一篇标题看似简单、甚至有些狂妄的论文在线上出现:《Attention Is All You Need》。
上周,全球创投圈的“风向标”YC,它的2025夏季演示日落下帷幕,169多家初创公司集中亮相。