AI资讯新闻榜单内容搜索-Scaling

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Scaling
苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

研究揭示早融合架构在低计算预算下表现更优,训练效率更高。混合专家(MoE)技术让模型动态适应不同模态,显著提升性能,堪称多模态模型的秘密武器。

来自主题: AI技术研报
9095 点击    2025-05-06 14:41
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报
5682 点击    2025-04-28 14:09
英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板

英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板

英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板

Llama 4刚出世就被碾压!英伟达强势开源Llama Nemotron-253B推理模型,在数学编码、科学问答中准确率登顶,甚至以一半参数媲美DeepSeek R1,吞吐量暴涨4倍。关键秘诀,就在于团队采用的测试时Scaling。

来自主题: AI资讯
5733 点击    2025-04-09 18:02
Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束

刚刚,一位AI公司CEO细细扒皮了关于Llama 4的五大疑点。甚至有圈内人表示,Llama 4证明Scaling已经结束了,LLM并不能可靠推理。但更可怕的事,就是全球的AI进步恐将彻底停滞。

来自主题: AI技术研报
7190 点击    2025-04-09 09:49