AI资讯新闻榜单内容搜索-Attention

Attention Sink产生的起点？清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型（MoE）通过动态路由和稀疏激活机制，极大提升了大语言模型（LLM）的学习能力，展现出显著的潜力。基于这一架构，涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

来自主题: AI技术研报

8122 点击 2025-08-12 11:07

ICML25|标点符号竟是LLM记忆核心！正确处理性能暴涨

近年来，大语言模型（LLM）的能力越来越强，但它们的“饭量”也越来越大。这个“饭量”主要体现在计算和内存上。当模型处理的文本越来越长时，一个叫做“自注意力（Self-Attention）”的核心机制会导致计算量呈平方级增长。这就像一个房间里的人开会，如果每个人都要和在场的其他所有人单独聊一遍，那么随着人数增加，总的对话次数会爆炸式增长。

来自主题: AI技术研报

8409 点击 2025-07-29 12:29

重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5%

GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学（广州）联合研发，提出了一种高效的大模型框架，显著提升模型性能与计算效率。

来自主题: AI技术研报

9645 点击 2025-07-23 10:15

腾讯混元A13B用130亿参数达到千亿级效果，Flash Attention作者点赞

腾讯混元，在开源社区打出名气了。

来自主题: AI资讯

8189 点击 2025-07-15 12:01

无需CUDA代码给H100加速33%-50%，Flash Attention作者新作火了

无需CUDA代码，给H100加速33%-50%！ Flash Attention、Mamba作者之一Tri Dao的新作火了。

来自主题: AI技术研报

10907 点击 2025-07-11 16:06

清华第三代Sage注意力发布！提速5倍，精度不降，训推都能用

清华大学朱军教授团队提出SageAttention3，利用FP4量化实现推理加速，比FlashAttention快5倍，同时探索了8比特注意力用于训练任务的可行性，在微调中实现了无损性能。

来自主题: AI技术研报

8994 点击 2025-07-08 12:08

原来Scaling Law还能被优化？Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。

来自主题: AI技术研报

7955 点击 2025-07-06 14:56