AI资讯新闻榜单内容搜索-Transforme

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？

来自主题: AI技术研报

7845 点击 2024-06-04 15:20

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制？中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源，并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型， vHeat 同时兼顾了：计算复杂度（1.5次方）、全局感受野、物理可解释性。

来自主题: AI技术研报

8879 点击 2024-06-03 17:51

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

来自主题: AI技术研报

8874 点击 2024-06-03 15:44

LLM的「母语」是什么？

在以英语为主的语料库上训练的多语言LLM，是否使用英语作为内部语言？对此，来自EPFL的研究人员针对Llama 2家族进行了一系列实验。

来自主题: AI技术研报

9214 点击 2024-06-03 10:53

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

乘法和排序也有效。

来自主题: AI技术研报

8616 点击 2024-06-01 19:00

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

用卷积能做出一样好的效果。

来自主题: AI资讯

8932 点击 2024-06-01 18:57

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念，现在有办法了。

来自主题: AI资讯

8873 点击 2024-05-31 19:10

适应多形态多任务，最强开源机器人学习系统「八爪鱼」诞生

一位优秀的相声演员需要吹拉弹唱样样在行，类似地，一个优秀的机器人模型也应能适应多样化的机器人形态和不同的任务，但目前大多数机器人模型都只能控制一种形态的机器人执行一类任务。现在 Octo（八爪鱼）来了！这个基于 Transformer 的模型堪称当前最强大的开源机器人学习系统，无需额外训练就能完成多样化的机器人操控任务并能在一定程度适应新机器人形态和新任务，就像肢体灵活的八爪鱼。

来自主题: AI技术研报

9355 点击 2024-05-28 20:01

Transformer大杀器进入蛋白质组学，一文梳理LLM如何助力生命科学领域大变革

科学家们把Transformer模型应用到蛋白质序列数据中，试图在蛋白质组学领域复制LLM的成功。本篇文章能够带你了解蛋白质语言模型（pLM）的起源、发展，以及那些尚待解决的问题。

来自主题: AI技术研报

10187 点击 2024-05-26 14:16

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？

来自主题: AI技术研报

7354 点击 2024-05-25 18:07