AI资讯新闻榜单内容搜索-语料

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 语料

检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

在检索增强生成中，扩大生成模型规模往往能提升准确率，但也会显著抬高推理成本与部署门槛。CMU 团队在固定提示模板、上下文组织方式与证据预算，并保持检索与解码设置不变的前提下，系统比较了生成模型规模与检索语料规模的联合效应，发现扩充检索语料能够稳定增强 RAG，并在多项开放域问答基准上让小中型模型在更大语料下达到甚至超过更大模型在较小语料下的表现，同时在更高语料规模处呈现清晰的边际收益递减。

来自主题: AI技术研报

7604 点击 2026-01-06 09:30

动态RAG性能提升14个点！用4万亿token教会大模型「什么时候该检索」

动态RAG性能提升14个点！用4万亿token教会大模型「什么时候该检索」

动态RAG性能提升14个点！用4万亿token教会大模型「什么时候该检索」

近日，来自伊利诺伊大学芝加哥分校、纽约大学、与蒙纳士大学的联合团队提出QuCo-RAG，首次跳出「从模型自己内部信号来评估不确定性」的思维定式，转而用预训练语料的客观统计来量化不确定性，

来自主题: AI技术研报

8222 点击 2026-01-01 10:13

北航提出代码大模型的 Scaling Laws：编程语言差异与多语言最优配比策略

北航提出代码大模型的 Scaling Laws：编程语言差异与多语言最优配比策略

北航提出代码大模型的 Scaling Laws：编程语言差异与多语言最优配比策略

在代码大模型（Code LLMs）的预训练中，行业内长期存在一种惯性思维，即把所有编程语言的代码都视为同质化的文本数据，主要关注数据总量的堆叠。然而，现代软件开发本质上是多语言混合的，不同语言的语法特性、语料规模和应用场景差异巨大。

来自主题: AI技术研报

6937 点击 2025-12-25 09:46

AI翻译的「最后一公里」

AI翻译的「最后一公里」

AI翻译的「最后一公里」

在巴布亚新几内亚的一个原始部落，情感的中心是肝脏而非心脏；在纳米比亚，有一个专门的词形容「光脚踩在热沙上」。这些人类经验的细微差别，正成为AI翻译难以逾越的「最后且最远的一英里」。

来自主题: AI资讯

6376 点击 2025-12-17 14:59

超10万亿Tokens的高质量数据集是怎么炼成的？专访中国电信天翼AI阮宜龙

超10万亿Tokens的高质量数据集是怎么炼成的？专访中国电信天翼AI阮宜龙

超10万亿Tokens的高质量数据集是怎么炼成的？专访中国电信天翼AI阮宜龙

正所谓“得数据者得天下”，这家央企算是把高质量数据集给玩明白了——超过10万亿tokens的通用大模型语料数据，以及覆盖14个关键行业的专业数据集，总存储量高达350TB！

来自主题: AI资讯

8633 点击 2025-09-26 10:59

ChatGPT到底学了多少「污言秽语」？清华团队首提大语言模型中文语料污染治理技术

ChatGPT到底学了多少「污言秽语」？清华团队首提大语言模型中文语料污染治理技术

ChatGPT到底学了多少「污言秽语」？清华团队首提大语言模型中文语料污染治理技术

如果我们的教科书里包含大量的污言秽语，那么我们能学好语言吗？这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。

来自主题: AI技术研报

8091 点击 2025-08-26 12:11

让AI读懂「言外之意」：AI4SG团队发布首个心理健康污名语料库，破解隐性偏见识别难题

让AI读懂「言外之意」：AI4SG团队发布首个心理健康污名语料库，破解隐性偏见识别难题

让AI读懂「言外之意」：AI4SG团队发布首个心理健康污名语料库，破解隐性偏见识别难题

心理健康问题影响着全球数亿人的生活，然而患者往往面临着双重负担：不仅要承受疾病本身的痛苦，还要忍受来自社会的偏见和歧视。世界卫生组织数据显示，全球有相当比例的心理健康患者因为恐惧社会歧视而延迟或拒绝治疗。

来自主题: AI技术研报

7679 点击 2025-08-08 11:41

ICML 2025 | 如何在合成文本数据时避免模型崩溃？

ICML 2025 | 如何在合成文本数据时避免模型崩溃？

ICML 2025 | 如何在合成文本数据时避免模型崩溃？

随着生成式人工智能技术的飞速发展，合成数据正日益成为大模型训练的重要组成部分。未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。

来自主题: AI技术研报

8900 点击 2025-05-14 14:04

大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升

大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升

大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升

近年来，「思维链（Chain of Thought，CoT）」成为大模型推理的显学，但要让小模型也拥有长链推理能力却非易事。

来自主题: AI技术研报

8450 点击 2025-05-04 17:08

UIUC联手谷歌发布Search-R1：大模型学会「边想边查」，推理、搜索无缝切换

UIUC联手谷歌发布Search-R1：大模型学会「边想边查」，推理、搜索无缝切换

UIUC联手谷歌发布Search-R1：大模型学会「边想边查」，推理、搜索无缝切换

DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力，尤其是在无需人工标注推理过程的设定下，模型可以学习到如何更合理地组织回答。然而，这类模型缺乏对外部数据源的实时访问能力，一旦训练语料中不存在某些关键信息，推理过程往往会因知识缺失而失败。

来自主题: AI技术研报

8372 点击 2025-04-22 09:02

上一页当前第1页,共4页下一页