AI资讯新闻榜单内容搜索-Attention

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

大模型中，线性层的低比特量化已经逐步落地。然而，对于注意力模块，目前几乎各个模型都还在用高精度（例如 FP16 或 FP32）的注意力运算进行训练和推理。并且，随着大型模型需要处理的序列长度不断增加，Attention（注意力运算）的时间开销逐渐成为主要开销。

来自主题: AI技术研报

8393 点击 2024-12-27 09:44

突破数据瓶颈！交大研发电脑智能体，让 AI 替你熬夜做 PPT

想象这样一个场景：深夜 11 点，你已经忙碌了一天，正准备休息，却想起明天早上还得分享一篇经典论文《Attention Is All You Need》，需要准备幻灯片。这时，你突然想到了自己的 AI 助手 —— PC Agent。

来自主题: AI技术研报

10355 点击 2024-12-25 11:04

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

大模型如今已具有越来越长的上下文，而与之相伴的是推理成本的上升。英伟达最新提出的Star Attention，能够在不损失精度的同时，显著减少推理计算量，从而助力边缘计算。

来自主题: AI技术研报

7679 点击 2024-12-05 11:27

这个访谈回应了所有AI焦点问题，他是AI最重要论文的联合作者

随着scaling law撞墙新闻爆出，全球科技圈、资本市场关于大模型发展触及天花板的讨论愈演愈烈。那么，AI发展是否放缓？后续又将如何发展？商业模式如何突破？

来自主题: AI资讯

6736 点击 2024-11-27 09:05

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

随着大语言模型在长文本场景下的需求不断涌现，其核心的注意力机制（Attention Mechanism）也获得了非常多的关注。

来自主题: AI技术研报

4631 点击 2024-11-08 19:19

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

TL;DR：DuoAttention 通过将大语言模型的注意力头分为检索头（Retrieval Heads，需要完整 KV 缓存）和流式头（Streaming Heads，只需固定量 KV 缓存），大幅提升了长上下文推理的效率，显著减少内存消耗、同时提高解码（Decoding）和预填充（Pre-filling）速度，同时在长短上下文任务中保持了准确率。

来自主题: AI技术研报

4739 点击 2024-10-24 11:33

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Universal Transformer（UT）。它的核心特征是通过跨层共享参数来实现深度循环，从而重新引入了 RNN 具有的循环表达能力。

来自主题: AI技术研报

10069 点击 2024-10-19 14:29

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

来自主题: AI技术研报

10432 点击 2024-10-19 14:15

「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，首款非Attention模型更新

通往AGI的路径只有一条吗？实则不然。这家国产AI黑马认为，「群体智能」或许是一种最佳的尝试。他们正打破惯性思维，打造出最强AI大脑，要让世界每一台设备都有自己的智能。

来自主题: AI技术研报

9818 点击 2024-09-27 19:19

通过打包 Flash Attention 来提升 Hugging Face 训练效率

现在，在 Hugging Face 中，使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容，这要归功于一个最近的 PR 以及新的 DataCollatorWithFlattening。它可以在保持收敛质量的同时，将训练吞吐量提高多达 2 倍。继续阅读以了解详细信息！

来自主题: AI资讯

4033 点击 2024-09-18 15:44