AI资讯新闻榜单内容搜索-多模态

Attention真的可靠吗？上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来，Vision-Language Models（视觉 — 语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。然而，这类模型在实际应用中往往面临推理开销大、效率受限的问题，研究者通常依赖 visual token pruning 等策略降低计算成本，其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报

10381 点击 2026-02-06 10:39

清华系创企生数科技完成超过6亿元人民币A+轮融资，拿下国内视频生成领域最大单笔融资！

今天，北京多模态生成技术创企生数科技宣布完成超过6亿元人民币A+轮融资。生数科技还披露，2025年该公司实现用户和收入超10倍增长，用户和业务覆盖全球200多个国家和地区。

来自主题: AI资讯

10588 点击 2026-02-05 23:28

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

近日，美团推出全新多模态统一大模型方案 STAR（STacked AutoRegressive Scheme for Unified Multimodal Learning），凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计，实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报

11226 点击 2026-02-05 13:50

刚刚，面壁小钢炮开源进阶版「Her」，9B模型居然有了「活人感」

面壁开源了行业首个全双工全模态大模型 MiniCPM-o 4.5，相比已有多模态模型，MiniCPM-o 4.5 首次实现了「边看边听边说」以及「自主交互」的全模态能力，模型不再只是把视觉、语音作为静态输入处理，而是能够在实时、多模态信息流中持续感知环境变化，并在输出的同时保持对外界的理解。

来自主题: AI资讯

10007 点击 2026-02-04 22:39

用AI做深度用户访谈，Trooly.AI获蓝驰、高瓴、王慧文投资

「暗涌Waves」独家获悉，一家成立刚不过4个月的AI-Native用户研究平台Trooly.AI已完成近千万美元的种子轮融资，投资方包括蓝驰创投、高瓴创投和王慧文。与市面上无数“超级个体”、“虚拟陪伴”、“碳基硅基共生世界”的宏大叙事不同，Trooly.AI想要用AI实现真实的商业闭环。其核心产品面向有用户调研需求的B端客户，通过多模态Voice Agent技术

来自主题: AI资讯

10341 点击 2026-01-31 16:36

VLM剪枝新SOTA：无需重训练，注意力去偏置超越6大主流方案

近年来，Vision-Language Models（视觉—语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报

7054 点击 2026-01-31 12:30

突发！姚顺雨后，清华95后庞天宇加入腾讯，任混元「主任研究员」

继OpenAI大神姚顺雨之后，腾讯AI再添猛将！95后清华「天骄」庞天宇，正式入职腾讯，出任混元首席研究科学家，负责多模态强化学习。腾讯的大模型「梦之队」版图，正在极速扩张。

来自主题: AI资讯

10164 点击 2026-01-30 22:54

顶尖模型离“科学家”还差得远？AI4S亟待迈向2.0时代

周伯文还详细介绍了上海 AI 实验室近年来开展的前沿探索与实践，包括驱动 “通专融合” 发展的技术架构 ——“智者”SAGE（Synergistic Architecture for Generalizable Experts），其包含基础、融合与进化三个层次，并可双向循环实现全栈进化；支撑 AGI4S 探索的两大基础设施“书生”科学多模态大模型 Intern-S1、“

来自主题: AI资讯

10373 点击 2026-01-30 19:13

登顶行业SOTA的多模态视频生成标杆，昆仑天工刚给开源了

好家伙，AGI真的「Open」了我的生活。（doge）

来自主题: AI资讯

7346 点击 2026-01-30 10:39

大模型学会拖进度条看视频了！阿里新研究让视频推理告别脑补，实现证据链思考 | ICLR 2026

为什么让多模态大模型“一步一步思考”（”Let’s think step by step”）来回答视频问题，效果有时甚至还不如让它“直接回答”？

来自主题: AI技术研报

9646 点击 2026-01-30 09:56