AI资讯新闻榜单内容搜索-模型训练

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

10206 点击 2024-06-04 17:45

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。

来自主题: AI技术研报

10038 点击 2024-06-04 17:36

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

Transformer挑战者、新架构Mamba，刚刚更新了第二代：

来自主题: AI技术研报

11758 点击 2024-06-04 16:13

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？

来自主题: AI技术研报

8924 点击 2024-06-04 15:20

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

一般而言，训练神经网络耗费的计算量越大，其性能就越好。在扩大计算规模时，必须要做个决定：是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。

来自主题: AI技术研报

7214 点击 2024-06-03 17:55

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制？中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源，并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型， vHeat 同时兼顾了：计算复杂度（1.5次方）、全局感受野、物理可解释性。

来自主题: AI技术研报

9974 点击 2024-06-03 17:51