AI资讯新闻榜单内容搜索-LAM

网友缝合Llama3 120B竟意外能打，轻松击败GPT2-chatbot和GPT-4

Llama 3首发阵容里没有的120B型号竟意外“曝光”，而且十分能打？！

来自主题: AI资讯

6279 点击 2024-05-13 17:34

6.99元租H800，一键部署Llama3，有羊毛速来薅！

猛然间，大模型圈掀起一股“降价风潮”。

来自主题: AI技术研报

7906 点击 2024-05-13 17:21

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

6078 点击 2024-05-12 15:49

70亿LLaMA媲美5400亿PaLM！MIT惊人研究用「博弈论」改进大模型｜ICLR 2024

大模型回答如何更可靠？MIT研究团队设计出「共识博弈」，将数学家常用的博弈论引入LLM改进中。没想到，LLaMA-7B的表现，击败了LLaMA-65B，甚至与PaLM-540B相媲美。

来自主题: AI技术研报

7958 点击 2024-05-12 15:19

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——

来自主题: AI技术研报

5722 点击 2024-05-12 12:51

闭源赶超GPT-4 Turbo、开源击败Llama-3-70B，歪果仁：这中国大模型真香

在发布一周年之际，阿里云通义千问大模型在闭源和开源领域都交上了一份满意的答卷。国内的开发者们或许没有想到，有朝一日，他们开发的 AI 大模型会像出海的网文、短剧一样，让世界各地的网友坐等更新。甚至，来自韩国的网友已经开始反思：为什么我们就没有这样的模型？

来自主题: AI资讯

5884 点击 2024-05-10 10:05

Unsloth x Qwen2，提速47.32%，节省39.13%显存，最少仅需8.43GB显存

在上一篇文章「Unsloth微调Llama3-8B，提速44.35%，节省42.58%显存，最少仅需7.75GB显存」中，我们介绍了Unsloth，这是一个大模型训练加速和显存高效的训练框架，我们已将其整合到Firefly训练框架中，并且对Llama3-8B的训练进行了测试，Unsloth可大幅提升训练速度和减少显存占用。

来自主题: AI技术研报

3797 点击 2024-05-08 12:21