AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

枢途科技(深圳)有限公司(以下简称「枢途科技」)近日完成数百万元天使轮融资,本轮由奇绩创坛投资,主要用于多模态大模型训练迭代、通用复合机器人结构升级等技术与产品的研发和交付。

来自主题: AI资讯
8336 点击    2024-11-30 16:05
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度,但巨大的计算开销限制了其在很多场景下的应用。

来自主题: AI技术研报
9975 点击    2024-11-28 14:16
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。

来自主题: AI技术研报
6647 点击    2024-11-19 17:15
虚拟女友已没有前途,AI陪伴硬件或许才是未来

虚拟女友已没有前途,AI陪伴硬件或许才是未来

虚拟女友已没有前途,AI陪伴硬件或许才是未来

随着AI大模型在今年618前夕打起价格战,当以GPT-4o为代表的多模态大模型将交互体验也推向更高的层次,也意味着杀手级AI应用或许真的来到了奇点时刻。如今AI行业的创业者已经不再聚焦大模型,而是开始尝试用AI赋能具体的应用场景。

来自主题: AI资讯
4613 点击    2024-11-11 10:17
详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

近期,智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA(Vision-Language-Action Model,即视觉-语言-动作模型),拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。

来自主题: AI资讯
4764 点击    2024-11-09 09:50
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

现在正是多模态大模型的时代,图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据(包括数据库、数仓、表格、json 等)视为了一种独立模态。

来自主题: AI技术研报
5739 点击    2024-11-07 17:45
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR

高效评估多模态预训练对齐质量,中科大提出模态融合率MIR

高效评估多模态预训练对齐质量,中科大提出模态融合率MIR

来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标 Modality Integration Rate(MIR),能够快速准确地评估多模态预训练的模态对齐程度。

来自主题: AI技术研报
4489 点击    2024-11-04 17:13
Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2:苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型(MLLM),旨在实现跨多个平台的通用用户界面(UI)理解。

来自主题: AI技术研报
8249 点击    2024-11-01 12:27
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。

来自主题: AI技术研报
4225 点击    2024-10-30 13:59
开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

原生多模态大模型性能瓶颈,迎来新突破! 上海AI Lab代季峰老师团队,提出了全新的原生多模态大模型Mono-InternVL。 与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。

来自主题: AI技术研报
5714 点击    2024-10-25 15:37