AI资讯新闻榜单内容搜索-多模态数据

混合检索系列之：Milvus 地理几何字段与 R-Tree 索引技术详解

在向量数据库的工程实践中，处理多模态数据，特别是结合地理位置（LBS）与非结构化语义数据，一直是一个复杂的架构挑战。

来自主题: AI技术研报

7237 点击 2026-01-26 10:20

顶刊TPAMI｜多模态视频理解领域重磅数据更新：MeViSv2发布

近日，多模态视频理解领域迎来重磅更新！由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布，并已被顶刊 IEEE TPAMI 录用。

来自主题: AI技术研报

9592 点击 2025-12-29 09:07

向量检索爆雷！傅聪联合浙大发布IceBerg Benchmark：HNSW并非最优，评估体系存在严重偏差

将多模态数据纳入到RAG，甚至Agent框架，是目前LLM应用领域最火热的主题之一，针对多模态数据最自然的召回方式，便是向量检索。

来自主题: AI技术研报

6722 点击 2025-12-26 09:40

AAAI 2026｜视频大语言模型到底可不可信？23款主流模型全面测评来了

近年来，视频大语言模型在理解动态视觉信息方面展现出强大能力，成为处理真实世界多模态数据的重要基础模型。然而，它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。

来自主题: AI技术研报

5766 点击 2025-12-16 09:19

NeurIPS 2025 | 告别全量扫描！浙大提出COIDO：破解多模态数据选择「高耗」难题

在深入技术细节之前，我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案：正如钟离在漫画中所言，面对海量视觉指令数据的选择任务，传统方法需要遍历全部数据才能进行筛选造成大量「磨损」（高昂计算成本）。同时在面对数据重要性和多样性问题时，传统方法往往顾此失彼。

来自主题: AI技术研报

6790 点击 2025-12-14 10:46

医疗AI智能体全面综述：行业爆发，年增长130%！

AI智能体正把医疗AI从「看片子」升级成会思考、能行动的「医生搭档」。研究人员发表的最新综述，用通俗语言拆解智能体如何读懂多模态数据、像专家一样规划决策，又能扮演医生、护士、健康管家等多重角色；同时提醒：越智能越危险，必须配套严格评估、隐私保护与伦理护栏，才敢让它走进真实诊疗。

来自主题: AI技术研报

7380 点击 2025-11-19 09:06

全球首个真实世界具身多模态数据集，它石智航交卷，比特斯拉还早6个月

全球首个真实世界具身多模态数据集，它来了！刚刚，它石智航发布全球首个大规模真实世界具身VLTA（Vision-Language-Tactile-Action）多模态数据集World In Your Hands（WIYH）。

来自主题: AI技术研报

9967 点击 2025-10-11 12:06

ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式

本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答（VQA）任务中展现出较强性能，但在真实世界中，多模态任务往往涉及多步骤推理与功能多样的工具使用，现有模型在此方面仍存在显著差距。

来自主题: AI技术研报

7015 点击 2025-08-22 16:20

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现，但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报

8403 点击 2025-08-01 16:08

AI infra赛道再现3000万美元大额融资，当数据处理遇上AI，如何重新定义多模态数据的未来

你有没有想过，为什么那些最聪明的AI工程师要把80%的时间浪费在修复数据基础设施上，而不是构建真正改变世界的AI应用？这个看似不合理的现象，正是Eventual创始人Sammy Sidhu和Jay Chia在Lyft自动驾驶部门工作时亲身经历的痛苦。

来自主题: AI资讯

7937 点击 2025-07-09 12:55