AI资讯新闻榜单内容搜索-视觉语言模型

直接从像素到单词：这个原生大模型统一单图、多图、视频和空间智能

今天几乎所有主流视觉语言模型（VLM）—— 无论是 Qwen-VL、InternVL，还是 LLaVA 系列 —— 都遵循着同一套经典架构：先用预训练视觉编码器（如 CLIP、SigLIP）将图像压缩为特征，再通过投影层把这些特征送入大语言模型。

来自主题: AI技术研报

7510 点击 2026-06-24 16:06

刚刚，豆包大模型2.1发布，Coding能力进入国际第一梯队！相比Opus 4.6降价近80%

豆包大模型2.1 Pro正式发布。但字节这次没有像某些厂商那样疯狂堆参数、刷榜单，而是把刀锋对准了一个更硬核的方向：让AI真正能“干活” 。作为本次大会发布的主力模型，豆包2.1 Pro 在 Coding（编程）、Agent（智能体）、VLM（视觉语言模型）三大核心方向实现能力跃升，多项评测表现优于Claude Opus 4.6

来自主题: AI资讯

9689 点击 2026-06-23 15:40

华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物，但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界？

来自主题: AI技术研报

5862 点击 2026-06-15 09:19

Meta蔡志鹏新作VLM³：全面揭示三维视觉的Bitter Lesson

Meta 发布了一项令人震撼的研究工作 VLM³，首次揭示了三维视觉学习的 Bitter Lesson：标准的视觉语言模型 + scale 数据就是最简单有效的范式，针对特定任务的架构、损失函数以及数据增强的设计，甚至是 regression 的 formulation，均不是三维视觉学习的必要条件。

来自主题: AI技术研报

6632 点击 2026-06-09 14:31

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

当前，测试时扩展范式普遍致力于增加推理长度。然而，已有研究表明，随着推理长度的持续增长，以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此，从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

来自主题: AI技术研报

8733 点击 2026-05-25 09:49