AI资讯新闻榜单内容搜索-训练数据

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练数据
18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对,囊括了 18 种视频编辑任务。

来自主题: AI技术研报
6894 点击    2025-03-12 14:41
GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

GPT 5/o3欠拟合与过拟合详细分析与深度思考(三万字超长洞察,慎入)

当模型复杂度增加到一定程度后,模型开始对训练数据中的噪声和异常值进行拟合,而不是仅仅学习数据中的真实模式。这导致模型在训练数据上表现得非常好,但在新的数据上表现不佳,因为新的数据中噪声和异常值的分布与训练数据不同。

来自主题: AI技术研报
8169 点击    2025-03-06 23:31
360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日,360 智脑开源了 Light-R1-32B 模型,以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成,从没有长思维链的 Qwen2.5-32B-Instruct 出发,仅使用 7 万条数学数据训练,得到 Light-R1-32B

来自主题: AI技术研报
4952 点击    2025-03-06 11:13
全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

基于内置思维链的思考方法为解决多轮会话中存在的问题提供了研究方向。按照思考方法收集训练数据集,通过有监督学习微调大语言模型;训练一个一致性奖励模型,并将该模型用作奖励函数,以使用强化学习来微调大语言模型。结果大语言模型的推理能力和计划能力,以及执行计划的能力得到了增强。

来自主题: AI资讯
5921 点击    2025-03-04 19:46
DeepSeek R1与OpenAI模型文风相似度高达74.2%?新研究质疑DeepSeek训练数据

DeepSeek R1与OpenAI模型文风相似度高达74.2%?新研究质疑DeepSeek训练数据

DeepSeek R1与OpenAI模型文风相似度高达74.2%?新研究质疑DeepSeek训练数据

在 DeepSeek 生成的文本中,有 74.2% 的文本在风格上与 OpenAI 模型具有惊人的相似性?这是一项新研究得出的结论。这项研究来自 Copyleaks—— 一个专注于检测文本中的抄袭和 AI 生成内容的平台。

来自主题: AI技术研报
7873 点击    2025-03-04 14:23
ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

在 Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个数据管理器 DataMan,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。

来自主题: AI技术研报
8217 点击    2025-02-28 14:04
曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

嚯,万众期待的GPT-4.5,本周就要空降发布?!部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。

来自主题: AI资讯
9030 点击    2025-02-27 09:28
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了!

来自主题: AI技术研报
5791 点击    2025-02-18 20:07
北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报
6858 点击    2025-02-10 16:54
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

来自主题: AI技术研报
6086 点击    2025-02-05 16:54