AI资讯新闻榜单内容搜索-Attention

英伟达最强B200算力浪费60%！普林斯顿团队出手，利用率升至71%

所有用英伟达Blackwell B200的人，都在花冤枉钱？？

来自主题: AI技术研报

7214 点击 2026-03-18 09:33

全新线性注意力范式！哈工深张正团队提出模长感知线性注意力！显存直降92.3%！

当 Transformer 席卷计算机视觉领域，高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显：标准 Softmax 注意力的二次复杂度，让 70K+token 的超分辨率任务直接显存爆炸，高分辨率图像分割、检测的推理延迟居高不下。

来自主题: AI技术研报

5959 点击 2026-03-17 08:48

Transformer祖制，被Kimi捅破了！谷歌大V高赞：Kimi触碰了十年没人敢碰的禁区！性能炸裂，相当于免费得1.25倍算力，网友：简直天才洞察

就在刚刚，Moonshot AI（月之暗面）发布了一项足以撼动 Transformer 底层的研究：《Attention Residuals》。海外科技大 V，谷歌高级AI产品经理 Shubham Saboo 直接开启了“高赞”模式：“他们触碰了那个十年没人敢碰的部分。”

来自主题: AI技术研报

9394 点击 2026-03-16 17:47

FlashAttention-4正式发布：算法流水线大改，矩阵乘法级速度

近日，深度学习领域重要底层优化技术 FlashAttention 迎来大版本更新。FlashAttention 核心作者、普林斯顿大学助理教授 Tri Dao 表示，在 Blackwell GPU 上，即使瓶颈截然不同，注意力机制的执行速度现在也几乎与矩阵乘法一样快了！

来自主题: AI技术研报

10327 点击 2026-03-06 15:30

为什么BF16的FlashAttention会把训练「炸掉」？清华首次给出机制解释，用极简改动稳住训练

一句话总结：社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了：在 BF16 等低精度训练里，FlashAttention 不是随机出 bug，而是会在特定条件下触发有方向的数值偏置，借助注意力中涌现的相似低秩更新方向被持续放大，最终把权重谱范数和激活推到失控，导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改，实测能显著稳定训练。

来自主题: AI技术研报

6897 点击 2026-03-04 13:49

独家｜Vattention 获数百万美元投资：从非线性到指数剪辑，定义视频编辑3.0时代

据悉，专注视频后期 AI Agent 的 Vattention（时空注力）已完成数百万美元种子轮融资，由青锐资本、百度风投、常垒资本联合投资。该公司由计算机科班出身、曾任阿里淘系核心产品总监、沉浸专业视频制作领域多年的连续创业者钟超（花名船长）创立。本轮融资将主要用于核心团队组建与技术研发，推动其三大核心引擎（MACE、ACE、PACE）的产品化落地。

来自主题: AI资讯

9934 点击 2026-03-02 15:05

Attention真的可靠吗？上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来，Vision-Language Models（视觉 — 语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。然而，这类模型在实际应用中往往面临推理开销大、效率受限的问题，研究者通常依赖 visual token pruning 等策略降低计算成本，其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报

10360 点击 2026-02-06 10:39

多模态大模型中Attention机制暗藏「骗局」，需用一个公式修正丨上大×南开

Attention真的可靠吗？

来自主题: AI技术研报

8866 点击 2026-01-27 16:17

AAAI 2026 Oral | 告别注意力与热传导！北大清华提出WaveFormer，首创波动方程建模视觉

“全局交互” 几乎等同于 self-attention：每个 token 都能和所有 token 对话，效果强，但代价也直观 —— 复杂度随 token 数平方增长，分辨率一高就吃不消。现有方法大多从 “相似度匹配” 出发（attention），或从 “扩散 / 传导” 出发（热方程类方法）。但热方程本质上是一个强低通滤波器：随着传播时间增加，高频细节（边缘、纹理）会迅速消失，导致特征过平滑。

来自主题: AI技术研报

9135 点击 2026-01-21 10:39

仅需15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案来了

为什么大模型厂商给了 128K 的上下文窗口，却在计费上让长文本显著更贵？

来自主题: AI技术研报

8333 点击 2025-12-24 10:07