AI资讯新闻榜单内容搜索-Transforme

谷歌再发「香蕉」！何恺明等引爆视觉Transformer时刻

最近，谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser，正式发布了Vision Banana。它向世界宣告：视觉AI终于不再需要那些臃肿的任务头了，理解，本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报

9623 点击 2026-04-24 16:13

首篇「Attention Sink」综述：从利用、理解到消除，Transformer中的注意力「汇聚」全景解析

几乎所有 Transformer 都在做一件反常的事：把大量注意力集中到少数几个特定 Token 上。这不是 bug，而是 Transformer 固有的「注意力汇聚」（Attention Sink）。首篇系统性综述，带你从利用、理解到消除，全面掌握这一核心现象。

来自主题: AI技术研报

8912 点击 2026-04-24 09:14

GPT-5.5，刚刚泄露了

就在刚刚，Codex平台爆发重大泄漏事故，内部测试环境疑似误推生产环境。GPT-5.5、「风速狗」Arcanine、「海森堡」以及神秘的Glacier集体亮相。奥特曼口中那个「比Transformer更伟大的架构」，难道已经藏在这些模型背后？

来自主题: AI资讯

8826 点击 2026-04-23 15:26

Transformer可以改装成Mamba了：苹果把推理成本直接打成线性

最近，苹果又整了个活儿，很工程、也挺关键：把又贵又强的 Transformer，改造成又便宜又差不多强的 Mamba。而且，性能基本没怎么掉。

来自主题: AI技术研报

8525 点击 2026-04-23 14:46

在一台1970年代的PDP-11上训练Transformer需要多久？答案是5.5分钟

试想一下，如果把当下大火的大模型技术带回 1970 年，会发生什么？

来自主题: AI技术研报

8935 点击 2026-04-14 15:45

别再用黑盒预测了！即插即用模块通过前置分解让iTransformer/PatchTST既准又可解释

在时间序列预测领域，深度模型如iTransformer、PatchTST虽然性能强劲，却长期困于“黑盒”困境——预测准，但说不出为什么。

来自主题: AI技术研报

7677 点击 2026-04-02 16:23

搞懂“记忆”必看｜吃透Engram，坐等Deepseek新模型

第一篇论文来自字节SEED团队，打了一些基础；《Over-Tokenized Transformer》。论文标题看上去在讨论“过度分词”。而重点必然是在第二篇上—— DeepSeek公司的学术成果Engram。《Conditional Memory via Scalable Lookup》也就是Engram模块所出处的论文。

来自主题: AI技术研报

10384 点击 2026-03-31 10:30