AI资讯新闻榜单内容搜索-多模态

一句指令自动玩手机，网上冲浪神器Mobile-Agent来了

随着多模态大语言模型（Multimodal Large Language Model，MLLM）的快速发展，以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中，这使得借助多模态 agent 实现手机操作助手成为了可能。

来自主题: AI资讯

9607 点击 2024-02-04 13:39

一直以来，让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下，AI 需要根据用户的要求自动操作手机，逐步完成任务。

来自主题: AI技术研报

10291 点击 2024-02-03 12:44

华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对14个主流多模态大模型进行了全面测评，涵盖5个任务，27个数据集。

来自主题: AI技术研报

10972 点击 2024-02-02 17:38

过去几个月中，随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出，「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。

来自主题: AI技术研报

9062 点击 2024-02-02 11:39

2B性能小钢炮来了！刚刚，面壁智能重磅开源了旗舰级端侧多模态模型MiniCPM，2B就能赶超Mistral-7B，还能越级比肩Llama2-13B。成本更是低到炸裂，170万tokens成本仅为1元！

来自主题: AI资讯

11937 点击 2024-02-02 11:18

有助于构建下一代多模态人工智能系统、开发能以更像人类的方式学习语言的人工智能系统。

来自主题: AI资讯

7688 点击 2024-02-02 11:10

多模态大型语言模型进展如何？盘点 26 个当前最佳多模态大型语言模型。

来自主题: AI技术研报

9133 点击 2024-01-31 16:26

对于大型视觉语言模型（LVLM）而言，扩展模型可以有效提高模型性能。然而，扩大参数规模会显著增加训练和推理成本，因为计算中每个 token 都会激活所有模型参数。

来自主题: AI技术研报

8713 点击 2024-01-31 16:23

马里兰大学联合北卡教堂山发布首个专为多模态大语言模型（MLLM）设计的图像序列的基准测试Mementos，涵盖了真实世界图像序列、机器人图像序列，以及动漫图像序列，用4761个多样化图像序列的集合，全面测试MLLM对碎散图像序列的推理能力！

来自主题: AI技术研报

3773 点击 2024-01-31 11:19

动态视觉分词统一图文表示，快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。

来自主题: AI技术研报

6963 点击 2024-01-30 13:36