AI资讯新闻榜单内容搜索-LLaVA

直接从像素到单词：这个原生大模型统一单图、多图、视频和空间智能

今天几乎所有主流视觉语言模型（VLM）—— 无论是 Qwen-VL、InternVL，还是 LLaVA 系列 —— 都遵循着同一套经典架构：先用预训练视觉编码器（如 CLIP、SigLIP）将图像压缩为特征，再通过投影层把这些特征送入大语言模型。

来自主题: AI技术研报

7510 点击 2026-06-24 16:06

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0，是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder，实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证，展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报

6337 点击 2026-06-03 15:03

全图与切片并非等价？LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型（MLLMs）在各类视觉语言任务中展现出强大的理解与交互能力，如何高效地处理原生高分辨率图像以捕捉精细的视觉信息，已成为提升模型性能的关键方向。

来自主题: AI技术研报

10449 点击 2025-12-09 14:38

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及，明显缩小了与顶级闭源模型的差距，标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报

10164 点击 2025-10-15 12:12

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型崛起，安全问题紧随其后近年来，大语言模型（LLMs）的突破式进展，催生了视觉语言大模型（LVLMs）的快速兴起，代表作如 GPT-4V、LLaVA 等。

来自主题: AI技术研报

10775 点击 2025-07-22 09:55

前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

AI是否真正在「思考」乃至产生意识，正成为科学和哲学交汇的核心议题。前OpenAI负责人翁荔认为，增加模型的「思考时间」有助突破复杂推理瓶颈；哈佛等机构则指出思维链可能导致「降智」；而生物学家Mallavarapu断言数字计算机永不可能拥有意识。

来自主题: AI技术研报

10480 点击 2025-05-26 10:43

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

多模态大模型（MLLMs）在视觉理解与推理等领域取得了显著成就。然而，随着解码（decoding）阶段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报

8495 点击 2025-04-29 14:56

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

近日，北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目，推出小尺寸简易视频理解框架 TinyLLaVA-Video，其模型，代码以及训练数据全部开源。在计算资源需求显著降低的前提下，训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报

9136 点击 2025-02-10 16:54

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

4996 点击 2025-02-06 15:26

小身板大能量：树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

你是否想过在自己的设备上运行自己的大型语言模型（LLMs）或视觉语言模型（VLMs）？你可能有过这样的想法，但是一想到要从头开始设置、管理环境、下载正确的模型权重，以及你的设备是否能处理这些模型的不确定性，你可能就犹豫了。

来自主题: AI技术研报

10288 点击 2024-12-30 16:53