AI资讯新闻榜单内容搜索-语言模型

训练数据枯竭怎么办？首篇「数据价值密度」综述理清思路

当训练数据枯竭、训练成本飙升，大语言模型（LLM）训练之路该何去何从？

来自主题: AI技术研报

5974 点击 2026-05-15 09:54

独家｜浙大00后世界模型创业，魔芯科技完成新一轮亿元融资，已在多个产业领域实现交付

2021 年，陈天润还在浙江大学读本科。那一年 ChatGPT 不存在，大语言模型远没有破圈。“世界模型”这个概念刚刚冒头，但陈天润做了一个当时看起来相当激进的决定：成立一家公司，做 3D 和 AI。

来自主题: AI资讯

10619 点击 2026-05-13 19:57

何恺明首个语言模型：105M参数，不走GPT自回归老路

何恺明，也下场做语言模型了。

来自主题: AI技术研报

9069 点击 2026-05-13 10:47

ICML 2026 | 大模型内部也会长出「情绪树」，规模越大越懂人心

随着语音、视频、多模态能力不断融入大语言模型（LLM），人与 AI 的交互正在越来越接近自然对话。今天的 LLM 不再只是回答问题的工具，也越来越多地出现在教育、客服、陪伴、心理健康等高度依赖情绪理解的场景中。

来自主题: AI技术研报

6480 点击 2026-05-12 14:31

CVPR 2026 | 别卷推理了！当前大模型 STEM 短板在于「视觉感知」，代码才是破局关键

当多模态大语言模型（MLLMs）在面对科学、技术、工程和数学（STEM）领域的视觉推理题时频频「翻车」，一个根本性的问题摆在了所有研究者面前：大模型做不出理科题，究竟是因为「脑子笨」（推理能力受限），还是因为「眼神差」（视觉感知缺陷）？

来自主题: AI技术研报

7016 点击 2026-05-11 16:08

深度拆解：AI 智能体 Harness 的构造【译】

本文将深入探讨 Anthropic、OpenAI、Perplexity 和 LangChain 究竟在开发什么。我们将聊聊编排循环、工具、记忆、上下文管理，以及那些将“无状态”的大语言模型（LLM）转变为全能智能体（Agent）的底层机制。

来自主题: AI技术研报

8538 点击 2026-05-11 09:02

提速4.48倍！哈工大华为新框架让扩散大模型精度无损、推理起飞

文本生成这件事，扩散大语言模型（dLLMs）正展现出巨大的潜力。但与此同时，它也面临着严重的计算瓶颈——为此，哈工大（深圳）与华为、深圳河套学院的研究团队提出了一套免训练加速框架Dynamic-dLLM。

来自主题: AI技术研报

8526 点击 2026-05-08 14:05

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们，或许都曾面临一个共同的困扰：当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型（SLMs）时，效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著，但一旦应用到 1.7B 甚至更小参数的模型上，性能提升就微乎其微。

来自主题: AI技术研报

8586 点击 2026-05-07 10:16

终结多智能体视觉幻觉“滚雪球”！新国立等提出ViF：无需改造模型，即插即用

基于视觉语言模型（VLM）的多智能体系统（MAS）正成为复杂多模态协作的核心方案，却被一个致命痛点死死卡住：多智能体视觉幻觉滚雪球——单个智能体的视觉误判通过纯文本信息流逐级放大，早期细微错误最终演变成系统性崩溃。

来自主题: AI技术研报

7680 点击 2026-05-01 10:46

10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

普林斯顿大学助理教授刘壮，在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。架构真的重要吗？数据集真的足够多样吗？归一化层是必需的吗？大语言模型有世界模型吗？AI智能体能替代博士生吗？

来自主题: AI技术研报

9000 点击 2026-04-30 08:39