AI资讯新闻榜单内容搜索-Mamba

Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

Mamba模型由于匹敌Transformer的巨大潜力，在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下，这两个架构还未有「一较高低」的机会。最近，英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。

来自主题: AI技术研报

4643 点击 2024-07-13 19:32

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

时隔一年，FlashAttention又推出了第三代更新，专门针对H100 GPU的新特性进行优化，在之前的基础上又实现了1.5～2倍的速度提升。

来自主题: AI技术研报

9485 点击 2024-07-12 16:57

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

超越Transformer和Mamba的新架构，刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。

来自主题: AI技术研报

6492 点击 2024-07-09 15:41

原作者带队，LSTM卷土重来之Vision-LSTM出世

与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比，ViL 的性能更胜一筹。

来自主题: AI技术研报

9243 点击 2024-06-08 15:55

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。

来自主题: AI技术研报

9366 点击 2024-06-04 17:36

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

Transformer挑战者、新架构Mamba，刚刚更新了第二代：

来自主题: AI技术研报

10960 点击 2024-06-04 16:13

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？

来自主题: AI技术研报

8207 点击 2024-06-04 15:20

在12个视频理解任务中，Mamba先打败了Transformer

探索视频理解的新境界，Mamba 模型引领计算机视觉研究新潮流！传统架构的局限已被打破，状态空间模型 Mamba 以其在长序列处理上的独特优势，为视频理解领域带来了革命性的变革。

来自主题: AI技术研报

6838 点击 2024-04-30 18:28

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的 MLLM 由众所周知的 Transformer 网络构成，这种网络具有较低效的二次计算复杂度。

来自主题: AI技术研报

7952 点击 2024-04-22 17:42

革命新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

继Mamba之后，又一敢于挑战Transformer的架构诞生了！

来自主题: AI技术研报

5118 点击 2024-04-17 19:23

AI资讯新闻榜单内容搜索-Mamba

Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜推翻Transformer

原作者带队，LSTM卷土重来之Vision-LSTM出世

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

在12个视频理解任务中，Mamba先打败了Transformer

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

革命新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer