AI资讯新闻榜单内容搜索-Mamba

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

RNN模型在长上下文中表现不佳？近日，来自清华的研究团队对此进行了深入的实验分析，结果表明：不是RNN的锅。

来自主题: AI技术研报

9430 点击 2024-11-27 17:10

在自然语言处理、语音识别和时间序列分析等众多领域中，序列建模是一项至关重要的任务。然而，现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。

来自主题: AI技术研报

7175 点击 2024-10-15 19:22

会议组织者都是 NLP 头部科学家，在语言建模方面有着相当的成果。

来自主题: AI技术研报

8620 点击 2024-10-08 17:48

顶流新会议首届COLM成功举办，Mamba等4篇论文获得杰出论文奖。

来自主题: AI资讯

10359 点击 2024-10-08 17:36

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报

8396 点击 2024-09-21 18:19

把Llama 3蒸馏到Mamba，推理速度最高可提升1.6倍！

来自主题: AI资讯

7685 点击 2024-09-10 14:10

近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。

来自主题: AI技术研报

8318 点击 2024-09-05 15:31

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。

来自主题: AI技术研报

8583 点击 2024-08-31 14:54

Jamba是第一个基于 Mamba 架构的生产级模型。Mamba 是由卡内基梅隆大学和普林斯顿大学的研究人员提出的新架构，被视为 Transformer 架构的有力挑战者。

来自主题: AI资讯

8759 点击 2024-08-24 10:07

Attention is all you need.

来自主题: AI技术研报

10357 点击 2024-08-22 16:44