AI资讯新闻榜单内容搜索-注意力机制

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 注意力机制
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。

来自主题: AI技术研报
5456 点击    2024-07-09 15:41
「吗喽」在想啥?AI读心术精准重建猕猴大脑图像,网友:我们成三体人了

「吗喽」在想啥?AI读心术精准重建猕猴大脑图像,网友:我们成三体人了

「吗喽」在想啥?AI读心术精准重建猕猴大脑图像,网友:我们成三体人了

荷兰拉德布德大学的研究团队通过定位大脑注意力机制,在AI「读心术」领域精确生成图像,能够依据大脑活动记录极为准确地重建猕猴所看到的内容。网友:这是人机融合的最终目标。

来自主题: AI技术研报
8776 点击    2024-07-05 16:27
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。

来自主题: AI技术研报
7410 点击    2024-06-29 00:14
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transformer和SSM直接成了「一家亲」,Mamba-2这是要一统江湖了?

来自主题: AI技术研报
7479 点击    2024-06-04 15:20
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型, vHeat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。

来自主题: AI技术研报
8498 点击    2024-06-03 17:51
ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时,会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。

来自主题: AI技术研报
8346 点击    2024-05-29 16:18
Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报
5640 点击    2024-05-12 15:49