AI资讯新闻榜单内容搜索-Multimodal

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报

9188 点击 2025-01-15 14:23

检索-增强生成 (RAG) 是一个永不过时的话题，并在不断扩展以增强LLMs 的功能。对于那些不太熟悉RAG 的人来说：这种方法利用外部知识来增强模型的能力，从外部资源中检索您实际需要的信息。

来自主题: AI技术研报

7621 点击 2025-01-10 11:01

多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力，在各个领域取得了巨大成功。

来自主题: AI资讯

8093 点击 2024-08-10 12:03

多模态大模型（Multimodal Large Language Models，MLLMs）在不同的任务中表现出了令人印象深刻的能力，尽管如此，这些模型在检测任务中的潜力仍被低估。

来自主题: AI技术研报

11978 点击 2024-07-22 14:58

2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）已经在文本和图像等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。

来自主题: AI技术研报

9987 点击 2024-05-10 23:32

随着多模态大语言模型（Multimodal Large Language Model，MLLM）的快速发展，以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中，这使得借助多模态 agent 实现手机操作助手成为了可能。

来自主题: AI资讯

9521 点击 2024-02-04 13:39