AI资讯新闻榜单内容搜索-多模态

统一视觉多模态与多任务！快手可灵与港科大团队发布视频生成模型，加速真实世界理解

不仅能“听懂”物体的颜色纹理，还能“理解”深度图、人体姿态、运动轨迹……

来自主题: AI技术研报

7681 点击 2025-12-15 10:42

NeurIPS 2025 | 告别全量扫描！浙大提出COIDO：破解多模态数据选择「高耗」难题

在深入技术细节之前，我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案：正如钟离在漫画中所言，面对海量视觉指令数据的选择任务，传统方法需要遍历全部数据才能进行筛选造成大量「磨损」（高昂计算成本）。同时在面对数据重要性和多样性问题时，传统方法往往顾此失彼。

来自主题: AI技术研报

6791 点击 2025-12-14 10:46

前百川智能合伙人邓江创业，想走一条不同的AI医疗路

在AI医疗的技术路线和商业模式上，双方走向了不同的方向：百川押注语言模型和ToC，邓江拥抱多模态和ToB。

来自主题: AI资讯

6236 点击 2025-12-11 16:05

5天连更5次，可灵AI年末“狂飙式”升级

12月伊始，可灵AI接连放出大招。全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能……5天内5次“上新”，直接让生成式AI领域的竞争“卷”出新高度。

来自主题: AI资讯

7315 点击 2025-12-10 14:32

国产多模态AI再开源！实测截图转网页、搜图购物，价格减半

原生工具调用、128K上下文，图文创作仍有短板。

来自主题: AI技术研报

10624 点击 2025-12-10 10:51

全图与切片并非等价？LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型（MLLMs）在各类视觉语言任务中展现出强大的理解与交互能力，如何高效地处理原生高分辨率图像以捕捉精细的视觉信息，已成为提升模型性能的关键方向。

来自主题: AI技术研报

9608 点击 2025-12-09 14:38

亚马逊Agent克服遗忘的“秘诀”，被中国团队掌握，让大模型遗忘率趋近于0

国内记忆框架首开源，企业实战已上线运行。在海外巨头已经将“记忆系统”提升到基础设施层的同时，红熊AI便是其中之一。公司成立于2024年，围绕多模态大模型与记忆科学开展研发，并将这些能力用于为企业提供智能客服、营销自动化与AI智能体服务。

来自主题: AI资讯

7260 点击 2025-12-08 09:49

Ilya刚预言完，世界首个原生多模态架构NEO就来了：视觉和语言彻底被焊死

全球首个可大规模落地的开源原生多模态架构（Native VLM），名曰NEO。要知道，此前主流的多模态大模型，例如我们熟悉的GPT-4V、Claude 3.5等，它们的底层逻辑本质上其实玩的就是拼接。

来自主题: AI技术研报

8390 点击 2025-12-05 14:46

迎接「万物皆可RAG」时代：最新综述展示50多种多模态组合的巨大待探索空间

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成（RAG）来产生用户问题的答案。随着多模态大模型（MLLMs）的崛起，大模型的主流技术之一 RAG 迅速向多模态发展，形成多模态检索增强生成（MM-RAG）这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

来自主题: AI技术研报

6449 点击 2025-12-03 09:54

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

来自主题: AI技术研报

8403 点击 2025-12-02 15:17