AI资讯新闻榜单内容搜索-语料

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语料
给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。

来自主题: AI技术研报
6570 点击    2025-01-20 19:01
2025年,谁最可能成为AI时代的中国Reddit

2025年,谁最可能成为AI时代的中国Reddit

2025年,谁最可能成为AI时代的中国Reddit

AI训练即将进入语料比拼阶段 Reddit 在过去的 2024 年算得上是容光焕发。这家创立了近 20 年的社交平台,去年 3 月在纽交所完成上市,并在上市后的第三季度实现首次盈利,到目前股票已涨到上市首日开盘价的 350% 左右。

来自主题: AI资讯
7200 点击    2025-01-16 10:33
工信部等三部门:多级联动建立国家工业基础大数据库、行业数据库

工信部等三部门:多级联动建立国家工业基础大数据库、行业数据库

工信部等三部门:多级联动建立国家工业基础大数据库、行业数据库

据工业和信息化部网站25日消息,工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会日前印发《制造业企业数字化转型实施指南》。

来自主题: AI监管政策
4961 点击    2024-12-26 14:05
深圳“发券”,重点支持人工智能。这回力度是真大啊,都去深圳!

深圳“发券”,重点支持人工智能。这回力度是真大啊,都去深圳!

深圳“发券”,重点支持人工智能。这回力度是真大啊,都去深圳!

12月18日,记者从深圳市工业和信息化局了解到,深圳拟出台若干措施,积极建设国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区,打造人工智能先锋城市。其中,在丰富生态要素供给方面,每年发放最高5亿元“训力券”,降低人工智能模型研发和训练成本。同时每年发放最高5000万元“语料券”,促进语料开放共享和交易,推动数据要素市场建设。

来自主题: AI资讯
8749 点击    2024-12-18 18:29
开发者火冒三丈炮轰GenAI:垃圾语料太多,模型正在变得越来越笨

开发者火冒三丈炮轰GenAI:垃圾语料太多,模型正在变得越来越笨

开发者火冒三丈炮轰GenAI:垃圾语料太多,模型正在变得越来越笨

生成式AI(GenAI),尤其是以OpenAI的ChatGPT为代表,人们发现,这些大模型在一年多后的性能表现远不及刚发布时那样令人惊艳了。

来自主题: AI资讯
3803 点击    2024-10-08 18:59
做语料交易平台,Cloudflare要为站长“主持公道”

做语料交易平台,Cloudflare要为站长“主持公道”

做语料交易平台,Cloudflare要为站长“主持公道”

这样一套组合拳打下去,AI厂商大概率就会乖乖向网站付费了。

来自主题: AI资讯
5679 点击    2024-10-08 17:18
迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试

迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试

迈向多语言医疗大模型:大规模预训练语料、开源模型与全面基准测试

在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型,并受制于缺乏多语言医疗专业数据的限制,导致当前的医疗大模型在处理非英语问题时效果不佳。

来自主题: AI技术研报
8501 点击    2024-09-29 22:38
斯坦福重磅,突破小规模语料瓶颈,EntiGraph合成数据增强算法让LLM更聪明

斯坦福重磅,突破小规模语料瓶颈,EntiGraph合成数据增强算法让LLM更聪明

斯坦福重磅,突破小规模语料瓶颈,EntiGraph合成数据增强算法让LLM更聪明

如何处理小众数据,如何让这些模型高效地学习专业领域的知识,一直是一个挑战。斯坦福大学的研究团队最近提出了一种名为EntiGraph的合成数据增强算法,为这个问题带来了新的解决思路。

来自主题: AI资讯
7244 点击    2024-09-20 10:31
AI数据告急,大厂盯上廉价年轻人

AI数据告急,大厂盯上廉价年轻人

AI数据告急,大厂盯上廉价年轻人

说好的AI给人类打工呢? 为了拿到新数据、训练AI大模型,字节等互联网大厂正在亲自下场,以单次300元不等的价格招募“AI录音员”,定制语料库。

来自主题: AI资讯
5159 点击    2024-09-04 09:57
Meta的Llama 3是合成数据训练?数据荒了解一下

Meta的Llama 3是合成数据训练?数据荒了解一下

Meta的Llama 3是合成数据训练?数据荒了解一下

如今一场席卷人工智能圈的“石油危机”已经出现,几乎每一家AI厂商都在竭力寻求新的语料来源,但再多的数据似乎也填不满AI大模型的胃口。更何况越来越多的内容平台意识到了手中数据的价值,纷纷开始敝帚自珍。为此,“合成数据”也成为了整个AI行业探索的新方向。

来自主题: AI资讯
7490 点击    2024-08-05 12:23