AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]

WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]

WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]

借助强大多模态模型,开创全新的网络智能体 Hongliang He1,3∗, Wenlin Yao2, Kaixin Ma2, Wenhao Yu2, Yong Dai2, Hongming Zhang2, Zhenzhong Lan3, Dong Yu2 1 浙江大学,2 腾讯 AI 实验室,3 西湖大学

来自主题: AI技术研报
9269 点击    2024-01-28 12:29
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。

来自主题: AI技术研报
9526 点击    2024-01-24 14:10
GPT-5前瞻!艾伦人工智能研究所发布最强多模态模型,预测GPT-5新能力

GPT-5前瞻!艾伦人工智能研究所发布最强多模态模型,预测GPT-5新能力

GPT-5前瞻!艾伦人工智能研究所发布最强多模态模型,预测GPT-5新能力

近日,艾伦人工智能研究所发布了Unified-IO 2,——第一代Unified-IO曾预测了GPT-4等模型的能力,所以我们可以从新一代的模型中一窥GPT-5的真面目

来自主题: AI资讯
8483 点击    2024-01-09 14:26
112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

大型多模态模型会做数学题吗?在UCLA等机构最新发布的MathVista基准上,即使是当前最强的GPT-4V也会感到「挫败感」。

来自主题: AI资讯
9025 点击    2023-12-05 17:15
专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。

来自主题: AI资讯
6027 点击    2023-12-03 11:23
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索,

来自主题: AI技术研报
10124 点击    2023-12-01 14:53
规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

性能优于规模更大的模型。多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。

来自主题: AI资讯
8890 点击    2023-11-28 15:06