AI资讯新闻榜单内容搜索-VLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VLM
比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

随着基础模型(如VLMs,例如Minimax、Qwen-V)和尖端图像生成技术(如Flux 1.1)的快速发展,我们正进入一个创造性可能性的新纪元。结合像T5这样的模型以增强对潜在空间中文本提示的理解,这些工具使得生产广告级别的关键视觉(KVs)成为可能,且具有显著的真实感。

来自主题: AI技术研报
9316 点击    2024-11-29 09:53
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

来自主题: AI技术研报
5307 点击    2024-11-19 21:01
导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

在游戏和机器人研究领域,让智能体在开放世界环境中实现有效的交互,一直是令人兴奋却困难重重的挑战。

来自主题: AI技术研报
3737 点击    2024-10-30 13:51
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。

来自主题: AI技术研报
7628 点击    2024-09-24 12:27
在线可玩!智谱开源图生视频模型,网友直呼Amazing!

在线可玩!智谱开源图生视频模型,网友直呼Amazing!

在线可玩!智谱开源图生视频模型,网友直呼Amazing!

刚刚,智谱把清影背后的图生视频模型CogVideoX-5B-I2V给开源了!(在线可玩) 一起开源的还有它的标注模型cogvlm2-llama3-caption。

来自主题: AI资讯
3817 点击    2024-09-19 14:54
突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

本文提出了一种名为MedUnA的方法,旨在解决医疗图像分类中因缺乏标注数据而导致的监督学习挑战。MedUnA利用视觉-语言模型(VLMs)中的视觉与文本对齐特性,通过无监督学习来适应医疗图像分类任务。

来自主题: AI资讯
3918 点击    2024-09-10 14:39
为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

视觉语言模型(VLM)这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互,因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体,这些智能体无论是在边缘抑或是在云端都能运行。

来自主题: AI技术研报
7474 点击    2024-09-04 16:04
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。

来自主题: AI技术研报
9378 点击    2024-08-21 14:20
三「模」联盟,谷歌DeepMind缔造终身学习智能体!

三「模」联盟,谷歌DeepMind缔造终身学习智能体!

三「模」联盟,谷歌DeepMind缔造终身学习智能体!

打造终身学习智能体,是研究界以来一直追求的目标。最近,帝国理工联手谷歌DeepMind打造了创新联合框架扩散增强智能体(DAAG),利用LLM+VLM+DM三大模型,让AI完成迁移学习、高效探索。

来自主题: AI资讯
3182 点击    2024-08-07 19:06