AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
PixelRefer :让AI从“看大图”走向“看懂每个对象”

PixelRefer :让AI从“看大图”走向“看懂每个对象”

PixelRefer :让AI从“看大图”走向“看懂每个对象”

多模态大模型(MLLMs)虽然在图像理解、视频分析上表现出色,但多停留在整体场景级理解。

来自主题: AI技术研报
10066 点击    2025-11-11 09:50
NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

在 AI 技术飞速发展的今天,如何高效地将多个专业模型的能力融合到一个通用模型中,是当前大模型应用面临的关键挑战。全量微调领域已经有许多开创性的工作,但是在高效微调领域,尚未有对模型合并范式清晰的指引。

来自主题: AI技术研报
6960 点击    2025-11-10 14:25
长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

去年,谢赛宁(Saining Xie)团队发布了 Cambrian-1,一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3,而是停下来思考:真正的多

来自主题: AI技术研报
7037 点击    2025-11-09 10:38
英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

OmniVinci是英伟达推出的全模态大模型,能精准解析视频和音频,尤其擅长视觉和听觉信号的时序对齐。它以90亿参数规模,性能超越同级别甚至更高级别模型,训练数据效率是对手的6倍,大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中,OmniVinci能提供高效支持,展现出卓越的多模态应用能力。

来自主题: AI资讯
7540 点击    2025-11-08 11:23
vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。项目 le

来自主题: AI技术研报
6456 点击    2025-11-08 11:00
具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

当前机器人领域,基础模型主要基于「视觉-语言预训练」,这样可将现有大型多模态模型的语义泛化优势迁移过来。但是,机器人的智能确实能随着算力和数据的增加而持续提升吗?我们能预测这种提升吗?

来自主题: AI技术研报
5897 点击    2025-11-05 16:42
多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

人类之所以能与复杂的物理世界高效互动,很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言,这同样是不可或缺的基本技能,对物理工具的使用会大大影响任务的成功率与效率。

来自主题: AI技术研报
10112 点击    2025-11-05 09:57
抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。

来自主题: AI技术研报
8453 点击    2025-11-04 10:42
AI深度应用关键元年,快手重塑内容与商业价值

AI深度应用关键元年,快手重塑内容与商业价值

AI深度应用关键元年,快手重塑内容与商业价值

2025 年被广泛视为 AI 走向深度应用的关键元年,在这一年里,以多模态生成、Agent 为代表的 AI 技术不断探索更多样、更高效、更贴合用户需求的应用形态。其中重要性愈加凸显的一点是:AI 正在走向产业级价值的系统性兑现。

来自主题: AI资讯
6840 点击    2025-11-03 14:47