AI资讯新闻榜单内容搜索-数据集

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 数据集
教AI玩游戏,General Intuition 完成3.2亿美元新一轮融资

教AI玩游戏,General Intuition 完成3.2亿美元新一轮融资

教AI玩游戏,General Intuition 完成3.2亿美元新一轮融资

看《堡垒之夜》的游戏录像,也能训练AI?没错,一家靠着海量游戏录像训练AI的公司General Intuition,刚刚完成3.2亿美元(约合人民币21.77亿元)融资。General Intuition公开披露的融资总额已达4.54亿美元,估值23亿美元。

来自主题: AI资讯
10075 点击    2026-06-28 00:22
首个长程Doc2Repo训练集!代码Agent不止修bug,开始造仓库

首个长程Doc2Repo训练集!代码Agent不止修bug,开始造仓库

首个长程Doc2Repo训练集!代码Agent不止修bug,开始造仓库

DeNovoSWE是一个用于训练代码智能体从零生成完整仓库的数据集,包含4818个真实任务实例。它通过结构化文档和严格验证机制,帮助智能体掌握复杂系统构建能力,而不仅仅是修复代码。这为代码智能体迈向更高阶的软件工程任务提供了关键支持。

来自主题: AI技术研报
9599 点击    2026-06-25 10:04
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集

来自主题: AI技术研报
7588 点击    2026-06-20 10:21
硬氪首发 | 红杉、阿里押注过的具身大脑公司再融资,上交等投资数亿元

硬氪首发 | 红杉、阿里押注过的具身大脑公司再融资,上交等投资数亿元

硬氪首发 | 红杉、阿里押注过的具身大脑公司再融资,上交等投资数亿元

硬氪获悉,具身智能企业穹彻智能(Noematrix)近日完成新一轮数亿元融资,本轮融资由无锡数据集团领投,投资方包括上海交通大学AI未来基金(创业基金)、上海创之智科技有限公司(上海创智学院全资子公司)、一村资本等。

来自主题: AI资讯
7561 点击    2026-06-19 10:42
ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

从原始视频出发,无需人工介入,自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产,推进到自动化、可扩展的新阶段。

来自主题: AI技术研报
6511 点击    2026-06-19 10:16
废片也能变大片!北大开源首个「美学照片重构」模型 | ICML'26

废片也能变大片!北大开源首个「美学照片重构」模型 | ICML'26

废片也能变大片!北大开源首个「美学照片重构」模型 | ICML'26

北大彭宇新团队提出「美学照片重构」新任务,从摄影教学视频中自动构建数据集AesRecon,并开发两阶段模型AesFormer,通过优化构图、视角与人物姿态,提升照片的美感与艺术表现力。

来自主题: AI技术研报
10180 点击    2026-06-08 14:49
李飞飞造了ImageNet,现在她又带人超越了它

李飞飞造了ImageNet,现在她又带人超越了它

李飞飞造了ImageNet,现在她又带人超越了它

就在前两天,斯坦福大学等机构发布了一个名为 GPIC(Giant Permissive Image Corpus,巨型开放图像语料库)的数据集。

来自主题: AI技术研报
9186 点击    2026-05-30 15:57
数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

数据比模型更值钱,国内最大的「端侧」训练数据开源了!600B 预训练+千万级 SFT 核心数据配方公开

我去搜了下 MiniCPM5-1B 的数据,发现面壁智能刚刚把背后的核心数据集给开源了。一共是两份 L3 级数据集:Ultra-FineWeb-L3 :600B tokens,中英文都有,是目前最大的中文开源合成预训练数据集。

来自主题: AI技术研报
8909 点击    2026-05-30 10:06
刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

刚刚,国产预训练具身大模型开源了,让后训练不再是必选项!

2026 年初,国内具身智能赛道掀起了一波开源潮,越来越多团队开始公开自己的视觉-语言-动作(VLA)模型、数据集与训练框架。与此同时,行业竞争也逐渐集中到 benchmark 成绩、任务成功率以及跨任务泛化能力上,尤其是在标准化或已训练任务中的表现。

来自主题: AI技术研报
8422 点击    2026-05-29 09:19