
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。
超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。
新架构,再次向Transformer发起挑战!
只要将注意力切块,就能让大模型解码提速20倍。
糖类是自然界中最丰富的有机物质,对生命至关重要。了解糖类如何在生理和病理过程中调节蛋白质,可以为解决关键的生物学问题和开发新的治疗方法提供机遇。
文章第一作者为来自北京大学物理学院、即将加入人工智能研究院读博的胡逸。胡逸的导师为北京大学人工智能研究院助理教授、北京通用人工智能研究院研究员张牧涵,主要研究方向为图机器学习和大模型的推理和微调。
AI芯片的创新从未停止。
上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力,但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。
史上最快Transformer芯片诞生了!用Sohu跑Llama 70B,推理性能已超B200十倍,超H100二十倍!刚刚,几位00后小哥从哈佛辍学后成立的公司Etached,宣布再融资1.2亿美元。
在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。
什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5?