AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista

大型多模态模型会做数学题吗?在UCLA等机构最新发布的MathVista基准上,即使是当前最强的GPT-4V也会感到「挫败感」。

来自主题: AI资讯
10594 点击    2023-12-05 17:15
横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。

来自主题: AI技术研报
10126 点击    2023-12-04 18:01
突破分辨率极限,字节联合中科大提出多模态文档大模型

突破分辨率极限,字节联合中科大提出多模态文档大模型

突破分辨率极限,字节联合中科大提出多模态文档大模型

现在连文档都有大模型了,还是高分辨率、多模态的那种!不仅能准确识别出图像里的信息,还能结合用户需求调用自己的知识库来回答问题。

来自主题: AI资讯
8404 点击    2023-12-04 13:58
专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。

来自主题: AI资讯
7674 点击    2023-12-03 11:23
“女儿概念股”效应:多模态或成AI应用胜负手

“女儿概念股”效应:多模态或成AI应用胜负手

“女儿概念股”效应:多模态或成AI应用胜负手

硅谷AI初创新星Pika爆火,不仅让“女儿概念股”信雅达收获两个涨停,还将这股暖风吹到了A股AI应用板块。12月1日(周五)午后,昆仑万维、万兴科技先后涨停,汤姆猫、福昕软件、国脉文化等多只个股强势上涨。

来自主题: AI资讯
8689 点击    2023-12-02 16:37
微软亚洲研究院韦福如:人工智能基础创新的第二增长曲线

微软亚洲研究院韦福如:人工智能基础创新的第二增长曲线

微软亚洲研究院韦福如:人工智能基础创新的第二增长曲线

从人工智能的发展历程来看,GPT 系列模型(例如 ChatGPT 和 GPT-4)的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性,并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。

来自主题: AI技术研报
7202 点击    2023-12-01 15:00
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索,

来自主题: AI技术研报
11188 点击    2023-12-01 14:53
网易传媒携手北京协和医院,共研国际首个多模态AI癫痫样放电检测系统

网易传媒携手北京协和医院,共研国际首个多模态AI癫痫样放电检测系统

网易传媒携手北京协和医院,共研国际首个多模态AI癫痫样放电检测系统

网易垂类模型首度落地医疗临床领域,由网易传媒与北京协和医院强强合作、共同研发的国际首个多模态AI癫痫样放电检测系统vEpiSpy正式亮相第二十六届全国神经病学学术大会,并在北京协和医院、北京天坛医院、山东大学附属儿童医院等全国多家顶级三甲医院展开了临床试用。

来自主题: AI资讯
6702 点击    2023-12-01 14:36
北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架,可以大大减少VLM(视觉语言大模型)在训练和推理过程中的开销。

来自主题: AI资讯
7713 点击    2023-11-29 15:32