
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。
挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。
表面上,AI正在狂飙突进;但背后,却是一群「看不见的人」在默默撑起这场科技竞赛。马斯克的xAI大规模裁员转型专家标注,谷歌外包工人被迫处理负面暴力内容。AI是靠无数普通人的劳动堆出来的。
本周五,Meta AI 团队正式发布了 MobileLLM-R1。 这是 MobileLLM 的全新高效推理模型系列,包含两类模型:基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。
阿里藏了3个月,亮相即提4个热搜。 万众瞩目的神秘项目,「高德扫街榜」终于揭开了庐山真面目…… 热议中有夸赞和激动,终于有人出来整顿到店和评价的乱象了。讨论里也有质疑:已经固化了十多年的格局,阿里和高德,凭什么一夜打破?
游戏新知独家获悉,贺甲已经自主创业,并于 2025 年 3 月成立上海梦熵科技。一位消息人士告诉游戏新知,团队已经拿到一笔融资,团队规模尚小。其合作伙伴中有一位成逸宁,疑似为前 Unity 大中华区影视动画总监,有近 20 年的影视动画行业经验。
Qwen下一代模型架构,抢先来袭! Qwen3-Next发布,Qwen团队负责人林俊旸说,这就是Qwen3.5的抢先预览版。 基于Qwen3-Next,团队先开源了Qwen3-Next-80B-A3B-Base。
AI 编程初创公司 Replit 在一轮融资中成功筹集 2.5 亿美元,估值达到 30 亿美元。普信资本(Prysm Capital)正领投本轮融资,美国运通风投(Amex Ventures)和谷歌 AI 未来基金(Google’s AI Futures Fund)等投资机构参与其中。
训练、推理性价比创新高。 大语言模型(LLM),正在进入 Next Level。 周五凌晨,阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ,性能就可媲美千问 3 旗舰版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,实现了模型计算效率的重大突破。
单台 8 卡 A800 仅需 8 秒即可生成 5 秒视频。
当地时间周二,德国汽车制造商大众汽车表示,公司将在2030年前向人工智能(AI)领域投入高达10亿欧元(约合12亿美元)的资金,并将这项技术全面融入业务各个环节,以期撬动数十亿欧元的成本节约。