AI资讯新闻榜单内容搜索-数据

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 数据
开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

Meta最近开源的Llama 3模型再次证明了「数据」是提升性能的关键,但现状是,开源的大模型有一堆,可开源的大规模数据却没多少,而收集、清洗数据又是一项极其费时费力的工作,也导致了大模型预训练技术仍然掌握在少数高端机构的手中。

来自主题: AI技术研报
6181 点击    2024-05-05 19:51
ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据

近年来,大型语言模型(LLM)在数学应用题和数学定理证明等任务中取得了长足的进步。数学推理需要严格的、形式化的多步推理过程,因此是 LLMs 推理能力进步的关键里程碑, 但仍然面临着重要的挑战。

来自主题: AI技术研报
6856 点击    2024-05-04 20:04
平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。

来自主题: AI技术研报
10885 点击    2024-05-04 20:01
Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

自2021年诞生,CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据(WIT400M),而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究,但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。

来自主题: AI技术研报
11809 点击    2024-05-02 17:54
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

来自主题: AI技术研报
9497 点击    2024-05-01 19:35
全球首次,湿实验证实!上交成功实现「蛋白质功能定向进化」,零数据跨入AGI时代

全球首次,湿实验证实!上交成功实现「蛋白质功能定向进化」,零数据跨入AGI时代

全球首次,湿实验证实!上交成功实现「蛋白质功能定向进化」,零数据跨入AGI时代

近日,上海交通大学自然科学研究院/物理与天文学院/张江高等研究院洪亮课题组,在生物信息学和人工智能研究领域的国际权威学术期刊JCIM(Journal of Chemical Information and Modeling)上发表最新研究成果

来自主题: AI资讯
10264 点击    2024-04-30 17:37