AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

多模态命名实体识别,作为构建多模态知识图谱的一项基础而关键任务,要求研究者整合多种模态信息以精准地从文本中提取命名实体。尽管以往的研究已经在不同层次上探索了多模态表示的整合方法,但在将这些多模态表示融合以提供丰富上下文信息、进而提升多模态命名实体识别的性能方面,它们仍显不足。

来自主题: AI技术研报
4545 点击    2024-07-02 17:35
300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

本文提出了解决一般性编辑任务的统一框架!近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月!

来自主题: AI技术研报
7376 点击    2024-06-29 00:35
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三

击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三

击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三

近日,云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。 最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v,仅次于 GPT-4o(69.9)和 Claude3.5-Sonnet(67.9)。

来自主题: AI资讯
7462 点击    2024-06-29 00:19
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。

来自主题: AI技术研报
7438 点击    2024-06-29 00:14
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。

来自主题: AI技术研报
8565 点击    2024-06-29 00:07
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。

来自主题: AI资讯
4175 点击    2024-06-28 16:24
将图像自动文本化,图像描述质量更高、更准确了

将图像自动文本化,图像描述质量更高、更准确了

将图像自动文本化,图像描述质量更高、更准确了

在当今的多模态大模型的发展中,模型的性能和训练数据的质量关系十分紧密,可以说是 “数据赋予了模型的绝大多数能力”。

来自主题: AI技术研报
5448 点击    2024-06-28 11:28
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

近日,LeCun和谢赛宁等大佬,共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。

来自主题: AI资讯
3173 点击    2024-06-27 16:22
太全了!苹果上新视觉模型4M-21,搞定21种模态

太全了!苹果上新视觉模型4M-21,搞定21种模态

太全了!苹果上新视觉模型4M-21,搞定21种模态

当前的多模态和多任务基础模型,如 4M 或 UnifiedIO,显示出有希望的结果。然而,它们接受不同输入和执行不同任务的开箱即用能力,受到它们接受训练的模态和任务的数量(通常很少)的限制。

来自主题: AI技术研报
8500 点击    2024-06-25 18:22