AI资讯新闻榜单内容搜索-数据集

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 数据集
前特斯拉Optimus科学家跳槽HF,直接开源了一个机器人代码库

前特斯拉Optimus科学家跳槽HF,直接开源了一个机器人代码库

前特斯拉Optimus科学家跳槽HF,直接开源了一个机器人代码库

今年 3 月,以构建大型开源社区而闻名的 AI 初创公司 Hugging Face,挖角前特斯拉科学家 Remi Cadene 来领导一个新的开源机器人项目 ——LeRobot,引起了轰动。

来自主题: AI技术研报
6403 点击    2024-05-08 11:05
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据

手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据

手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据

过去几年,借助Scaling Laws的魔力,预训练的数据集不断增大,使得大模型的参数量也可以越做越大,从五年前的数十亿参数已经成长到今天的万亿级,在各个自然语言处理任务上的性能也越来越好。

来自主题: AI技术研报
10195 点击    2024-05-06 21:36
为了给大模型找语料,有人开始进行“互联网考古”

为了给大模型找语料,有人开始进行“互联网考古”

为了给大模型找语料,有人开始进行“互联网考古”

过去一年,AI大模型无疑是科技行业中最亮眼的主角,从FAAMG到BAT、再到一众初创企业,无数优秀的大脑、海量的资源都投入到了这个有望解放人类生产力的赛道中。

来自主题: AI资讯
10397 点击    2024-05-06 12:54
开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

Meta最近开源的Llama 3模型再次证明了「数据」是提升性能的关键,但现状是,开源的大模型有一堆,可开源的大规模数据却没多少,而收集、清洗数据又是一项极其费时费力的工作,也导致了大模型预训练技术仍然掌握在少数高端机构的手中。

来自主题: AI技术研报
5066 点击    2024-05-05 19:51
Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

自2021年诞生,CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据(WIT400M),而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究,但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。

来自主题: AI技术研报
10528 点击    2024-05-02 17:54
姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。

来自主题: AI技术研报
4650 点击    2024-04-28 11:12
姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。语料规模和质量对大模型性能以及应用的深度、广度有着至关重要的影响。

来自主题: AI技术研报
8277 点击    2024-04-26 16:56
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。

来自主题: AI技术研报
8947 点击    2024-04-25 17:17