AI资讯新闻榜单内容搜索-Transforme

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

Transformer 架构在过去几年中通过注意力机制在多个领域（如计算机视觉、自然语言处理和长序列任务）中取得了非凡的成就。然而，其核心组件「自注意力机制」的计算复杂度随输入 token 数量呈二次方增长，导致资源消耗巨大，难以扩展到更长的序列或更大的模型。

来自主题: AI技术研报

9260 点击 2025-02-19 10:02

自然语言 token 代表的意思通常是表层的（例如 the 或 a 这样的功能性词汇），需要模型进行大量训练才能获得高级推理和对概念的理解能力，

来自主题: AI技术研报

6535 点击 2025-02-16 13:12

人类智慧的一大特征是能够分步骤创造复杂作品，例如绘画、手工艺和烹饪等，这些过程体现了逻辑与美学的融合。

来自主题: AI技术研报

9206 点击 2025-02-15 15:26

一篇报道，在AI圈掀起轩然大波。文中引用了近2年前的论文直击大模型死穴——Transformer触及天花板，却引来OpenAI研究科学家的紧急回应。谁能想到，一篇于2023年发表的LLM论文，竟然在一年半之后又「火」了。

来自主题: AI技术研报

6840 点击 2025-02-11 14:16

SANA 1.5是一种高效可扩展的线性扩散Transformer，针对文本生成图像任务进行了三项创新：高效的模型增长策略、深度剪枝和推理时扩展策略。这些创新不仅大幅降低了训练和推理成本，还在生成质量上达到了最先进的水平。

来自主题: AI技术研报

11728 点击 2025-02-07 16:05

本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康，指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱：ni@bupt.edu.cn, xiaoda99@bupt.edu.cn

来自主题: AI技术研报

5573 点击 2025-02-06 15:30

研究者提出了FAST，一种高效的动作Tokenizer。通过结合离散余弦变换（DCT）和字节对编码（BPE），FAST显著缩短了训练时间，并且能高效地学习和执行复杂任务，标志着机器人自回归Transformer训练的一个重要突破。

来自主题: AI技术研报

8852 点击 2025-01-23 13:19

现在，打个游戏都用上Transformer了？！老黄的DLSS进行了一波大升级，换上了基于Transformer的新大脑。用上新模型之后，光线重建和超分辨率，效果都变得更细腻了。

来自主题: AI资讯

8690 点击 2025-01-18 11:03

Sakana AI发布了Transformer²新方法，通过奇异值微调和权重自适应策略，提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA；即便是从未见过的任务，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。

来自主题: AI技术研报

10560 点击 2025-01-16 10:23

Stability AI推出3D重建方法：2D图像秒变3D，还可以交互式实时编辑。新方法的原理、代码、权重、数据全公开，而且许可证宽松，可以商用。新方法采用点扩展模型生成稀疏点云，之后通过Transformer主干网络，同时处理生成的点云数据和输入图像生成网格。以后，人人都能轻松上手3D模型设计。

来自主题: AI技术研报

12067 点击 2025-01-16 10:13