
无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生实习成果
无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生实习成果一个来自MIT博士生的惊人发现:只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提高模型性能。
一个来自MIT博士生的惊人发现:只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提高模型性能。
近日,来自华为诺亚方舟实验室、北京大学等机构的研究者提出了盘古 π 的网络架构,尝试来构建更高效的大模型架构。
近日,福布斯发布了2024年的10大AI预测,Stability AI将会倒闭?微软和OpenAI也将分道扬镳?
MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。
在Transformer占据多模态工具半壁江山的时代,大核CNN又“杀了回来”,成为了一匹新的黑马。
Transformer作者创立的大模型公司,再获5650万美元投资,换算成人民币有四亿多。
在视频生成场景中,用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域取得的一项重大成功。
今天,李飞飞携斯坦福联袂谷歌,用Transformer生成了逼真视频,效果媲美Gen-2比肩Pika。2023年俨然已成AI视频元年!
替代注意力机制,SSM 真的大有可为?
过度训练让中度模型出现了结构泛化能力。