AI资讯新闻榜单内容搜索-语言模型

震撼！苏黎世联邦理工和DeepMind发现LLM存在"盲从效应"，这可能颠覆我们对AI的认知 |COLM 2024

在当今人工智能迅猛发展的时代，大语言模型（LLMs）已成为众多AI应用的核心引擎。然而，来自ETH Zurich和Google DeepMind的一项最新研究揭示了一个令人深思的现象：这些看似强大的模型存在着严重的“盲从效应”。

来自主题: AI技术研报

6926 点击 2024-11-25 09:44

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

我们对小型语言模型的增强方法、已存在的小模型、应用、与 LLMs 的协作、以及可信赖性方面进行了详细调查。

来自主题: AI技术研报

7765 点击 2024-11-24 20:02

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。

来自主题: AI技术研报

8105 点击 2024-11-22 14:41

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

近日，DeepMind 团队将水印技术和投机采样（speculative sampling）结合，在为大语言模型加入水印的同时，提升其推理效率，降低推理成本，因此适合用于大规模生产环境。

来自主题: AI技术研报

8203 点击 2024-11-22 10:14

手把手教你预训练一个小型 LLM｜Steel-LLM 的实战经验

随着开源数据的日益丰富以及算力价格的持续下降，对于个人或小型机构而言，预训练一个小型的 LLM 已逐渐成为可能。开源中文预训练语言模型 Steel - LLM 就是一个典型案例，其模型参数量与数据量并非十分庞大，基本处于参数量为 B 级别、数据量为 T 级别的规模。

来自主题: AI技术研报

9130 点击 2024-11-22 09:44

史上最严“中文真实性评估”：OpenAI o1第1豆包第2，其它全部不及格

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。

来自主题: AI技术研报

9648 点击 2024-11-21 13:47

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报

10405 点击 2024-11-20 15:02