FlashAttention-4正式发布:算法流水线大改,矩阵乘法级速度
FlashAttention-4正式发布:算法流水线大改,矩阵乘法级速度近日,深度学习领域重要底层优化技术 FlashAttention 迎来大版本更新。FlashAttention 核心作者、普林斯顿大学助理教授 Tri Dao 表示,在 Blackwell GPU 上,即使瓶颈截然不同,注意力机制的执行速度现在也几乎与矩阵乘法一样快了!
搜索
近日,深度学习领域重要底层优化技术 FlashAttention 迎来大版本更新。FlashAttention 核心作者、普林斯顿大学助理教授 Tri Dao 表示,在 Blackwell GPU 上,即使瓶颈截然不同,注意力机制的执行速度现在也几乎与矩阵乘法一样快了!
深夜,两大科技巨头谷歌和 OpenAI 硬刚起来,相继推出了新版本大模型,分别是 Gemini 3.1 Flash-Lite、GPT‑5.3 Instant。
一句话总结:社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了:在 BF16 等低精度训练里,FlashAttention 不是随机出 bug,而是会在特定条件下触发有方向的数值偏置,借助注意力中涌现的相似低秩更新方向被持续放大,最终把权重谱范数和激活推到失控,导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改,实测能显著稳定训练。
首Token提速2.5倍,推理成绩干翻前代大模型。
阶跃星辰Step 3.5 Flash霸榜OpenClaw调用排行,全球开发者正在“用脚投票”AI新方向。
OpenClaw爆火,AI正式步入Agent时代。一支低调的中国团队凭借极速推理、完美适配128G内存的196B模型,直击痛点,强势登顶海外热榜。
一周一更,谷歌又在深夜扔出「深水炸弹」。就在刚刚,最强生图模型Nano Banana 2横空出世,背靠全新Gemini 3.1 Flash Image。 它不仅生成速度飞快,多语言文字处理更强,还能实时联网,一次直出4K大片。
过去48小时,Nano Banana 2成为AI开发者圈的热议话题。在海外社交平台X上,关于谷歌这款最新图片生成模型(又名Gemini 3.1 Flash Image预览版)将发布的帖子层出不穷,4K图片四处流传,各种猜测也甚嚣尘上。
为了支持多模型协同研究并加速这一未来愿景的实现,华盛顿大学 (University of Washington) 冯尚彬团队联合斯坦福大学、哈佛大学等研究人员提出 MoCo—— 一个针对多模型协同研究的 Python 框架。MoCo 支持 26 种在不同层级实现多模型交互的算法,研究者可以灵活自定义数据集、模型以及硬件配置,比较不同算法,优化自身算法,以此构建组合式人工智能系统。MoCo 为设计、
这个国产开源模型,把多模态玩出了“魔法”感。