AI资讯新闻榜单内容搜索-Token

图结构转文本序列，大模型直接读懂！图推理性能大涨

大语言模型直接理解复杂图结构的新方法来了：

来自主题: AI技术研报

7732 点击 2024-12-02 14:57

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

tokenizer对于图像、视频生成的重要性值得重视。

来自主题: AI技术研报

3849 点击 2024-11-23 16:31

视频生成无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

卡内基梅隆大学提出了视频生成模型加速方法Run-Length Tokenization（RLT），被NeurIPS 2024选为Spotlight论文。在精度几乎没有损失的前提下，RLT可以让模型训练和推理速度双双提升。

来自主题: AI技术研报

6805 点击 2024-11-17 14:10

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

新一代通用灵活的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦！

来自主题: AI技术研报

7096 点击 2024-11-14 14:13

它来了，剑桥最新LLM提示词压缩调查报告

别说Prompt压缩不重要，你可以不在乎Token成本，但总要考虑内存和LLM响应时间吧？一个显著的问题逐渐浮出水面：随着任务复杂度增加，提示词（Prompt）往往需要变得更长，以容纳更多详细需求、上下文信息和示例。这不仅降低了推理速度，还会增加内存开销，影响用户体验。

来自主题: AI资讯

9628 点击 2024-10-29 12:28

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

TL;DR：DuoAttention 通过将大语言模型的注意力头分为检索头（Retrieval Heads，需要完整 KV 缓存）和流式头（Streaming Heads，只需固定量 KV 缓存），大幅提升了长上下文推理的效率，显著减少内存消耗、同时提高解码（Decoding）和预填充（Pre-filling）速度，同时在长短上下文任务中保持了准确率。

来自主题: AI技术研报

4296 点击 2024-10-24 11:33