AI资讯新闻榜单内容搜索-Transforme

13人干翻Transformer！新架构SSA算力暴减千倍，成本仅Opus 5%

Transformer统治地位悬了！一款SubQ模型带着SAA架构横空出世，1200万上下文成本仅Opus的5%，计算量暴减千倍。

来自主题: AI资讯

9605 点击 2026-05-07 10:59

领先于Transformer！新架构首个1200万上下文模型SubQ，成本仅Opus的5%

你有没有想过，为什么 AI 读一篇短文游刃有余，却在面对一整个代码库时频频出错？

来自主题: AI技术研报

5902 点击 2026-05-06 14:57

超越Claude Mythos和GPT-5.5！斯坦福Agent验证框架拿下SOTA，Transformer作者转发

Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架，该方法是一种通用的验证机制，可与任意Agent Harness和模型结合。

来自主题: AI技术研报

8336 点击 2026-04-27 15:18

谷歌再发「香蕉」！何恺明等引爆视觉Transformer时刻

最近，谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser，正式发布了Vision Banana。它向世界宣告：视觉AI终于不再需要那些臃肿的任务头了，理解，本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报

9181 点击 2026-04-24 16:13

首篇「Attention Sink」综述：从利用、理解到消除，Transformer中的注意力「汇聚」全景解析

几乎所有 Transformer 都在做一件反常的事：把大量注意力集中到少数几个特定 Token 上。这不是 bug，而是 Transformer 固有的「注意力汇聚」（Attention Sink）。首篇系统性综述，带你从利用、理解到消除，全面掌握这一核心现象。

来自主题: AI技术研报

8581 点击 2026-04-24 09:14

GPT-5.5，刚刚泄露了

就在刚刚，Codex平台爆发重大泄漏事故，内部测试环境疑似误推生产环境。GPT-5.5、「风速狗」Arcanine、「海森堡」以及神秘的Glacier集体亮相。奥特曼口中那个「比Transformer更伟大的架构」，难道已经藏在这些模型背后？

来自主题: AI资讯

8511 点击 2026-04-23 15:26

Transformer可以改装成Mamba了：苹果把推理成本直接打成线性

最近，苹果又整了个活儿，很工程、也挺关键：把又贵又强的 Transformer，改造成又便宜又差不多强的 Mamba。而且，性能基本没怎么掉。

来自主题: AI技术研报

8233 点击 2026-04-23 14:46

在一台1970年代的PDP-11上训练Transformer需要多久？答案是5.5分钟

试想一下，如果把当下大火的大模型技术带回 1970 年，会发生什么？

来自主题: AI技术研报

8659 点击 2026-04-14 15:45

别再用黑盒预测了！即插即用模块通过前置分解让iTransformer/PatchTST既准又可解释

在时间序列预测领域，深度模型如iTransformer、PatchTST虽然性能强劲，却长期困于“黑盒”困境——预测准，但说不出为什么。

来自主题: AI技术研报

7439 点击 2026-04-02 16:23

搞懂“记忆”必看｜吃透Engram，坐等Deepseek新模型

第一篇论文来自字节SEED团队，打了一些基础；《Over-Tokenized Transformer》。论文标题看上去在讨论“过度分词”。而重点必然是在第二篇上—— DeepSeek公司的学术成果Engram。《Conditional Memory via Scalable Lookup》也就是Engram模块所出处的论文。

来自主题: AI技术研报

10038 点击 2026-03-31 10:30