AI资讯新闻榜单内容搜索-LAM

仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

基于人类反馈的强化学习 (RLHF) 使得大语言模型的输出能够更加符合人类的目标、期望与需求，是提升许多闭源语言模型 Chat-GPT, Claude, Gemini 表现的核心方法之一。

来自主题: AI资讯

6977 点击 2024-05-18 11:18

70B模型秒出1000token，代码重写超越GPT-4o，来自OpenAI投资的代码神器Cursor团队

70B模型，秒出1000token，换算成字符接近4000！

来自主题: AI技术研报

10024 点击 2024-05-17 17:45

网友缝合Llama3 120B竟意外能打，轻松击败GPT2-chatbot和GPT-4

Llama 3首发阵容里没有的120B型号竟意外“曝光”，而且十分能打？！

来自主题: AI资讯

7592 点击 2024-05-13 17:34

6.99元租H800，一键部署Llama3，有羊毛速来薅！

猛然间，大模型圈掀起一股“降价风潮”。

来自主题: AI技术研报

9760 点击 2024-05-13 17:21

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。

来自主题: AI技术研报

7684 点击 2024-05-12 15:49

70亿LLaMA媲美5400亿PaLM！MIT惊人研究用「博弈论」改进大模型｜ICLR 2024

大模型回答如何更可靠？MIT研究团队设计出「共识博弈」，将数学家常用的博弈论引入LLM改进中。没想到，LLaMA-7B的表现，击败了LLaMA-65B，甚至与PaLM-540B相媲美。

来自主题: AI技术研报

8938 点击 2024-05-12 15:19

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——

来自主题: AI技术研报

6926 点击 2024-05-12 12:51

闭源赶超GPT-4 Turbo、开源击败Llama-3-70B，歪果仁：这中国大模型真香

在发布一周年之际，阿里云通义千问大模型在闭源和开源领域都交上了一份满意的答卷。国内的开发者们或许没有想到，有朝一日，他们开发的 AI 大模型会像出海的网文、短剧一样，让世界各地的网友坐等更新。甚至，来自韩国的网友已经开始反思：为什么我们就没有这样的模型？

来自主题: AI资讯

7699 点击 2024-05-10 10:05

Unsloth x Qwen2，提速47.32%，节省39.13%显存，最少仅需8.43GB显存

在上一篇文章「Unsloth微调Llama3-8B，提速44.35%，节省42.58%显存，最少仅需7.75GB显存」中，我们介绍了Unsloth，这是一个大模型训练加速和显存高效的训练框架，我们已将其整合到Firefly训练框架中，并且对Llama3-8B的训练进行了测试，Unsloth可大幅提升训练速度和减少显存占用。

来自主题: AI技术研报

5981 点击 2024-05-08 12:21

推理超越 Llama3！面壁Ultra对齐助推开源大模型「理科状元」

两周前，OpenBMB开源社区联合面壁智能发布领先的开源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B，Eurux-8x22B 发布时间更早，综合性能相当，尤其是拥有更强的推理性能——刷新开源大模型推理性能 SOTA，堪称开源大模型中「理科状元」。

来自主题: AI技术研报

10490 点击 2024-05-07 22:38