AI资讯新闻榜单内容搜索-TEN

通过打包 Flash Attention 来提升 Hugging Face 训练效率

现在，在 Hugging Face 中，使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容，这要归功于一个最近的 PR 以及新的 DataCollatorWithFlattening。它可以在保持收敛质量的同时，将训练吞吐量提高多达 2 倍。继续阅读以了解详细信息！

来自主题: AI资讯

3132 点击 2024-09-18 15:44

多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA

Attention is all you need.

来自主题: AI技术研报

9465 点击 2024-08-22 16:44

这个大模型，真的治好了我的论文阅读障碍

今年 3 月份，英伟达 CEO 黄仁勋举办了一个非常特别的活动。他邀请开创性论文《Attention Is All You Need》的作者们齐聚 GTC，畅谈生成式 AI 的未来发展方向。

来自主题: AI资讯

6260 点击 2024-08-12 17:24

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

2017 年，谷歌在论文《Attention is all you need》中提出了 Transformer，成为了深度学习领域的重大突破。该论文的引用数已经将近 13 万，后来的 GPT 家族所有模型也都是基于 Transformer 架构，可见其影响之广。作为一种神经网络架构，Transformer 在从文本到视觉的多样任务中广受欢迎，尤其是在当前火热的 AI 聊天机器人领域。

来自主题: AI资讯

6480 点击 2024-08-11 17:38