AI资讯新闻榜单内容搜索-大语言模型

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

大语言模型（LLM）被越来越多应用于各种领域。然而，它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则：每个词（token）的生成都需要进行一次前向传播，需要访问数十亿至数千亿参数的 LLM。这导致传统自回归解码的速度较慢。

来自主题: AI资讯

5908 点击 2023-12-15 11:37

微软提出变色龙框架，让模型自带工具箱开挂，数学推理任务准确率98%｜NeurIPS 2023

教大模型调用工具，已经是AI圈关注度最高的话题之一了。这不，又有一项研究登上最新NeurIPS 2023——它是一个叫做Chameleon（变色龙）的框架，号称能将大语言模型直接变成魔法师的工具箱，来自微软与加州大学洛杉矶分校（UCLA）。

来自主题: AI资讯

6309 点击 2023-12-13 16:30

DeepMind的新AI研究：人类最后的自留地失守了？

喂给大模型语料——最初是维基百科和Reddit，后来扩展到音频、视觉图像甚至雷达和热图像——后者广义上说是换了种表达方式的语言。也因此有生成式AI的创业者认为，一个极度聪明的大语言模型就是那个通往AGI最终答案，多模态的研究道路只是目前对前者的底气不足。

来自主题: AI资讯

3114 点击 2023-12-13 10:16

深度揭秘爆火MoE！GPT-4关键架构，成开源模型逆袭杀手锏

上周末，Mistral甩出的开源MoE大模型，震惊了整个开源社区。MoE究竟是什么？它又是如何提升了大语言模型的性能？

来自主题: AI资讯

7215 点击 2023-12-11 20:34

4GB 显存单卡居然能跑 70B 大模型了!

大语言模型需要消耗巨量的GPU内存。有可能一个单卡GPU跑推理吗？可以的话，最低多少显存？70B大语言模型仅参数量就有130GB，仅仅把模型加载到GPU显卡里边就需要2台顶配100GB内存的A100。

来自主题: AI资讯

7993 点击 2023-12-07 11:00

横扫13个视觉语言任务！哈工深发布多模态大模型「九天」，性能直升5%

哈工深发布全新多模态大语言模型九天（JiuTian-LION），融合细粒度空间感知和高层语义视觉知识，在13个评测任务上实现了sota性能。

来自主题: AI技术研报

9123 点击 2023-12-04 18:01

一个提示，让Llama 2准确率飙至80.3%？Meta提出全新注意力机制S2A，大幅降低模型幻觉

大语言模型「拍马屁」的问题到底要怎么解决？最近，LeCun转发了Meta发布的一篇论文，研究人员提出了新的方法，有效提升了LLM回答问题的事实性和客观性。我们一起来看一下吧。

来自主题: AI资讯

7757 点击 2023-11-28 16:00

自动驾驶的中美“赛跑”，正被大模型重置

今年，大型语言模型改变了自动驾驶技术路线的竞争格局。特斯拉开始探索自动驾驶的世界模型，而中国企业加速推进自动驾驶技术，超过美国。

来自主题: AI资讯

4288 点击 2023-11-28 10:27

小模型如何进行上下文学习？字节跳动 & 华东师大联合提出自进化文本识别器

我们都知道，大语言模型（LLM）能够以一种无需模型微调的方式从少量示例中学习，这种方式被称为「上下文学习」（In-context Learning）。这种上下文学习现象目前只能在大模型上观察到。比如 GPT-4、Llama 等大模型在非常多的领域中都表现出了杰出的性能，但还是有很多场景受限于资源或者实时性要求较高，无法使用大模型。

来自主题: AI技术研报

4209 点击 2023-11-27 12:49

视频生成新突破：PixelDance，轻松呈现复杂动作与炫酷特效

最近，除了大语言模型继续持续刷屏，视频生成技术也取得了重大进展，多家公司相继发布了新模型。首先，作为最早探索视频生成领域的领头羊之一，Runway 升级了其 Gen-2 模型，带来了电影级别的高清晰度，令人瞩目，并称视频生成的一致性得到了重大改进。

来自主题: AI资讯

7703 点击 2023-11-25 09:51