AI资讯新闻榜单内容搜索-语料

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语料
动态RAG性能提升14个点!用4万亿token教会大模型 「什么时候该检索」

动态RAG性能提升14个点!用4万亿token教会大模型 「什么时候该检索」

动态RAG性能提升14个点!用4万亿token教会大模型 「什么时候该检索」

近日,来自伊利诺伊大学芝加哥分校、纽约大学、与蒙纳士大学的联合团队提出QuCo-RAG,首次跳出「从模型自己内部信号来评估不确定性」的思维定式,转而用预训练语料的客观统计来量化不确定性,

来自主题: AI技术研报
7864 点击    2026-01-01 10:13
北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略

北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略

北航提出代码大模型的 Scaling Laws:编程语言差异与多语言最优配比策略

在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。

来自主题: AI技术研报
6677 点击    2025-12-25 09:46
AI翻译的「最后一公里」

AI翻译的「最后一公里」

AI翻译的「最后一公里」

在巴布亚新几内亚的一个原始部落,情感的中心是肝脏而非心脏;在纳米比亚,有一个专门的词形容「光脚踩在热沙上」。这些人类经验的细微差别,正成为AI翻译难以逾越的「最后且最远的一英里」。

来自主题: AI资讯
6191 点击    2025-12-17 14:59
超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙

超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙

超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙

正所谓“得数据者得天下”,这家央企算是把高质量数据集给玩明白了——超过10万亿tokens的通用大模型语料数据,以及覆盖14个关键行业的专业数据集,总存储量高达350TB!

来自主题: AI资讯
8442 点击    2025-09-26 10:59
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗?这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。

来自主题: AI技术研报
7903 点击    2025-08-26 12:11
让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题

让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题

让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题

心理健康问题影响着全球数亿人的生活,然而患者往往面临着双重负担:不仅要承受疾病本身的痛苦,还要忍受来自社会的偏见和歧视。世界卫生组织数据显示,全球有相当比例的心理健康患者因为恐惧社会歧视而延迟或拒绝治疗。

来自主题: AI技术研报
7532 点击    2025-08-08 11:41
ICML 2025 | 如何在合成文本数据时避免模型崩溃?

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。

来自主题: AI技术研报
8751 点击    2025-05-14 14:04
UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力,尤其是在无需人工标注推理过程的设定下,模型可以学习到如何更合理地组织回答。然而,这类模型缺乏对外部数据源的实时访问能力,一旦训练语料中不存在某些关键信息,推理过程往往会因知识缺失而失败。

来自主题: AI技术研报
8220 点击    2025-04-22 09:02
AI暂时生成不了鲁迅和张爱玲,但别高兴太早

AI暂时生成不了鲁迅和张爱玲,但别高兴太早

AI暂时生成不了鲁迅和张爱玲,但别高兴太早

倘若不加以修正,人类语料所要经受的“大屠杀”,或许也将成为AI时代的固有可能。

来自主题: AI资讯
9327 点击    2025-04-03 16:00