AI资讯新闻榜单内容搜索-多模态模型

14 项任务测下来，GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力？

2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）已经在文本和图像等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。

来自主题: AI技术研报

9987 点击 2024-05-10 23:32

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展，但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

来自主题: AI技术研报

10245 点击 2024-05-01 19:35

最近，一家名为 Reka 的初创公司发布了一款多模态语言模型——Reka Core，这是他们自2022 年成立以来第三款模型。

来自主题: AI资讯

11511 点击 2024-04-26 13:15

近期，多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展，尤其是多个闭源模型，例如：GPT4V 和 Gemini，甚至在某些方面展现了超越人类能力的表现。

来自主题: AI技术研报

10967 点击 2024-04-25 19:32

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。

来自主题: AI技术研报

7939 点击 2024-04-21 23:05

马斯克的第一代多模态模型Grok-1.5V，终于来了！

来自主题: AI资讯

9167 点击 2024-04-15 17:12

自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问世了。

来自主题: AI技术研报

12359 点击 2024-04-14 17:41

哈工大联合度小满推出针对多模态模型的自适应剪枝算法 SmartTrim，论文已被自然语言处理顶级会议 COLING 24 接收。

来自主题: AI技术研报

5831 点击 2024-03-17 18:56

华人科学家程博文官宣即将入职OpenAI，加入后训练团队参与多模态模型研究。值得一提的是，他还是著名华人计算机泰斗Thomas Huang的学生。

来自主题: AI技术研报

5723 点击 2024-03-11 17:44

在视频理解这一领域，尽管多模态模型在短视频分析上取得了突破性进展，展现出了较强的理解能力，但当它们面对电影级别的长视频时，却显得力不从心。因而，长视频的分析与理解，特别是对于长达数小时电影内容的理解，成为了当前的一个巨大挑战。

来自主题: AI技术研报

10988 点击 2024-03-10 16:19