AI资讯新闻榜单内容搜索-注意力机制

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 注意力机制

Sigmoid注意力一样强，苹果开始重新审视注意力机制

Sigmoid注意力一样强，苹果开始重新审视注意力机制

Sigmoid注意力一样强，苹果开始重新审视注意力机制

注意力是 Transformer 架构的关键部分，负责将每个序列元素转换为值的加权和。将查询与所有键进行点积，然后通过 softmax 函数归一化，会得到每个键对应的注意力权重。

来自主题: AI技术研报

6248 点击 2024-09-19 11:10

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

ECCV 2024 | 比基准高30%，媲美Gemini 1.5 Pro，基于记忆的视频理解智能体来了

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而，当这些模型处理较长的视频时，内存消耗可能会显著增加，甚至变得难以承受，并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。

来自主题: AI技术研报

7589 点击 2024-09-06 11:59

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。

来自主题: AI技术研报

7602 点击 2024-08-31 14:54

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

用 FlexAttention 尝试一种新的注意力模式。

来自主题: AI资讯

7601 点击 2024-08-10 18:05

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

超越Transformer和Mamba的新架构，刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。

来自主题: AI技术研报

5603 点击 2024-07-09 15:41

「吗喽」在想啥？AI读心术精准重建猕猴大脑图像，网友：我们成三体人了

「吗喽」在想啥？AI读心术精准重建猕猴大脑图像，网友：我们成三体人了

「吗喽」在想啥？AI读心术精准重建猕猴大脑图像，网友：我们成三体人了

荷兰拉德布德大学的研究团队通过定位大脑注意力机制，在AI「读心术」领域精确生成图像，能够依据大脑活动记录极为准确地重建猕猴所看到的内容。网友：这是人机融合的最终目标。

来自主题: AI技术研报

8878 点击 2024-07-05 16:27

拆分Transformer注意力，韩国团队让大模型解码提速20倍

拆分Transformer注意力，韩国团队让大模型解码提速20倍

拆分Transformer注意力，韩国团队让大模型解码提速20倍

只要将注意力切块，就能让大模型解码提速20倍。

来自主题: AI技术研报

9790 点击 2024-07-01 15:34

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

想要达成通用人工智能 AGI 的终极目标，首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点，大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链（Chain-of-Thought）等技术正是由此产生的灵感。

来自主题: AI技术研报

7526 点击 2024-06-29 00:14

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

Transformer挑战者、新架构Mamba，刚刚更新了第二代：

来自主题: AI技术研报

10319 点击 2024-06-04 16:13

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？

来自主题: AI技术研报

7584 点击 2024-06-04 15:20

上一页当前第4页,共5页下一页