AI资讯新闻榜单内容搜索-训练模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 训练模型

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

来自主题: AI技术研报

9227 点击 2025-08-08 11:22

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

在噪声污染严重影响预训练数据的质量时，如何能够高效且精细地精炼数据？中科院计算所与阿里Qwen等团队联合提出RefineX，一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。

来自主题: AI技术研报

7956 点击 2025-07-22 10:03

Z Waves｜00后钢琴系女生要用Agent重做CRM，见到的第一家风投就决定投资

Z Waves｜00后钢琴系女生要用Agent重做CRM，见到的第一家风投就决定投资

Z Waves｜00后钢琴系女生要用Agent重做CRM，见到的第一家风投就决定投资

在大模型狂飙的时代，AI 创业被裹挟进一种“技术正统性”的焦虑：要不要训练模型？有没有算力资源？底层自研是不是护城河？但 Yiran，一位本科学钢琴、靠一段自动发邮件脚本开启创业旅程的 00 后女性创业者，选择了另一种路径——她不训练模型，不押技术论文，而是把 AI 做成一个真正能“成事”的销售助理。

来自主题: AI资讯

8303 点击 2025-07-13 12:18

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

预训练模型能否作为探索新架构设计的“底座” ？最新答案是：yes！

来自主题: AI技术研报

10274 点击 2025-06-20 15:38

Meta 的 Llama 3.1 可以回忆起第一本《哈利·波特》的 42%：新的研究可能对针对生成人工智能的版权诉讼产生重大影响

Meta 的 Llama 3.1 可以回忆起第一本《哈利·波特》的 42%：新的研究可能对针对生成人工智能的版权诉讼产生重大影响

Meta 的 Llama 3.1 可以回忆起第一本《哈利·波特》的 42%：新的研究可能对针对生成人工智能的版权诉讼产生重大影响

近年来，众多原告——包括书籍、报纸、计算机代码和照片的出版商——起诉人工智能公司使用受版权保护的材料来训练模型。所有这些诉讼中的一个关键问题是，人工智能模型如何轻易地从原告的受版权保护的内容中逐字摘录。

来自主题: AI资讯

8854 点击 2025-06-17 17:17

谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

近日，NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM，以无需训练的即插即用加速方案，实现了推理速度的突破！通过创新的技术组合，在不依赖重新训练模型的前提下，该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据，解析其核心优势。

来自主题: AI技术研报

9498 点击 2025-05-30 12:08

AI生成视频总不符合物理规律？匹兹堡大学团队新作PhyT2V：不重训练模型也能让物理真实度狂飙2.3倍！

AI生成视频总不符合物理规律？匹兹堡大学团队新作PhyT2V：不重训练模型也能让物理真实度狂飙2.3倍！

AI生成视频总不符合物理规律？匹兹堡大学团队新作PhyT2V：不重训练模型也能让物理真实度狂飙2.3倍！

本文由匹兹堡大学智能系统实验室（Intelligent Systems Laboratory）的研究团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。

来自主题: AI技术研报

9294 点击 2025-05-19 14:12

全球闲置算力训个模型，性能媲美R1，老黄天塌了！Karpathy曾投资它

全球闲置算力训个模型，性能媲美R1，老黄天塌了！Karpathy曾投资它

全球闲置算力训个模型，性能媲美R1，老黄天塌了！Karpathy曾投资它

一夜之间，老黄天塌了（doge）。

来自主题: AI技术研报

9665 点击 2025-05-13 15:30

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

最近，DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型生成很长的推理链（CoT），并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报

7485 点击 2025-04-28 14:09

自己训练模型才能掌握未来？一股脑押注应用层或许值得警惕

自己训练模型才能掌握未来？一股脑押注应用层或许值得警惕

自己训练模型才能掌握未来？一股脑押注应用层或许值得警惕

模型即产品？

来自主题: AI技术研报

6993 点击 2025-03-08 13:33

上一页当前第2页,共5页下一页