AI资讯新闻榜单内容搜索-视觉语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉语言模型
9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

视觉价值模型(VisVM)通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量,减少幻觉现象。实验表明,VisVM能显著提高模型的视觉理解能力,并可通过自我训练进一步提升性能。

来自主题: AI技术研报
6762 点击    2024-12-30 14:43
视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

对抗攻击,特别是基于迁移的有目标攻击,可以用于评估大型视觉语言模型(VLMs)的对抗鲁棒性,从而在部署前更全面地检查潜在的安全漏洞。然而,现有的基于迁移的对抗攻击由于需要大量迭代和复杂的方法结构,导致成本较高

来自主题: AI技术研报
7119 点击    2024-12-28 14:01
不让视觉语言模型「盲猜」,性能竟直接提升一倍?

不让视觉语言模型「盲猜」,性能竟直接提升一倍?

不让视觉语言模型「盲猜」,性能竟直接提升一倍?

近日,卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench,这是一项发表于 NeurIPS'24 的以视觉为核心的 VQA 基准。它通过自然图像上的简单问题——即自然对抗样本(Natural Adversarial Samples)——对视觉语言模型发起严峻挑战。

来自主题: AI技术研报
2722 点击    2024-11-09 10:27
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

视觉语言模型(如 GPT-4o、DALL-E 3)通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。

来自主题: AI技术研报
2563 点击    2024-11-05 15:28
多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图像场景也能用DPO方法来对齐了! 由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。 这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报
3618 点击    2024-11-01 20:53
为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

视觉语言模型(VLM)这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互,因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体,这些智能体无论是在边缘抑或是在云端都能运行。

来自主题: AI技术研报
7474 点击    2024-09-04 16:04
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。

来自主题: AI技术研报
9378 点击    2024-08-21 14:20
关于大模型「越狱」的多种方式,有这些防御手段

关于大模型「越狱」的多种方式,有这些防御手段

关于大模型「越狱」的多种方式,有这些防御手段

随着人工智能(AI)技术的迅猛发展,特别是大语言模型(LLMs)如 GPT-4 和视觉语言模型(VLMs)如 CLIP 和 DALL-E,这些模型在多个技术领域取得了显著的进展。

来自主题: AI技术研报
10011 点击    2024-07-29 20:32
使用视觉语言模型进行 PDF 检索 [译]

使用视觉语言模型进行 PDF 检索 [译]

使用视觉语言模型进行 PDF 检索 [译]

近年来,随着大语言模型 (LLM) 的发展,构建检索增强生成 (RAG) 解决方案成为了一个热门话题。RAG 将 LLM 的强大功能与检索模型结合,应用于专有知识数据库。然而,对于开发人员来说,一个主要挑战是将各种文档格式(如 PDF、HTML 等)转换为可供文本模型处理的格式。

来自主题: AI技术研报
8860 点击    2024-07-21 14:12
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报
9522 点击    2024-07-13 20:01