AI资讯新闻榜单内容搜索-视觉模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉模型
VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发展出真正的视觉能力?

来自主题: AI技术研报
8671 点击    2024-07-16 19:43
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报
9524 点击    2024-07-13 20:01
MSRA:视觉生成六大技术问题

MSRA:视觉生成六大技术问题

MSRA:视觉生成六大技术问题

文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。

来自主题: AI技术研报
9586 点击    2024-07-13 18:39
Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

下一代视觉模型会摒弃patch吗?Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构,让Transformer直接学习单个像素而不是16×16的patch,结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报
4450 点击    2024-07-09 16:03
太全了!苹果上新视觉模型4M-21,搞定21种模态

太全了!苹果上新视觉模型4M-21,搞定21种模态

太全了!苹果上新视觉模型4M-21,搞定21种模态

当前的多模态和多任务基础模型,如 4M 或 UnifiedIO,显示出有希望的结果。然而,它们接受不同输入和执行不同任务的开箱即用能力,受到它们接受训练的模态和任务的数量(通常很少)的限制。

来自主题: AI技术研报
8472 点击    2024-06-25 18:22
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

等了半年,微软视觉基础模型Florence-2终于开源了。它能够根据提示,完成字幕、对象检测、分割等各种计算机视觉和语言的任务。网友们实测后,堪称「游戏规则改变者」。

来自主题: AI技术研报
8485 点击    2024-06-24 15:41
原作者带队,LSTM卷土重来之Vision-LSTM出世

原作者带队,LSTM卷土重来之Vision-LSTM出世

原作者带队,LSTM卷土重来之Vision-LSTM出世

与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更胜一筹。

来自主题: AI技术研报
8220 点击    2024-06-08 15:55
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型, vHeat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。

来自主题: AI技术研报
8504 点击    2024-06-03 17:51
李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

在不久之前的 2024 TED 演讲中,李飞飞详细解读了 空间智能(Spatial Intelligence)概念。她对计算机视觉领域在数年间的快速发展感到欣喜并抱有极大热忱,并为此正在创建初创公司

来自主题: AI资讯
9500 点击    2024-05-21 15:31
HuggingFace教你怎样做出SOTA视觉模型

HuggingFace教你怎样做出SOTA视觉模型

HuggingFace教你怎样做出SOTA视觉模型

前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。

来自主题: AI技术研报
10096 点击    2024-05-17 17:49