AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”代替“暴力记忆”

去年,谢赛宁(Saining Xie)团队发布了 Cambrian-1,一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3,而是停下来思考:真正的多

来自主题: AI技术研报
7042 点击    2025-11-09 10:38
具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据

当前机器人领域,基础模型主要基于「视觉-语言预训练」,这样可将现有大型多模态模型的语义泛化优势迁移过来。但是,机器人的智能确实能随着算力和数据的增加而持续提升吗?我们能预测这种提升吗?

来自主题: AI技术研报
5899 点击    2025-11-05 16:42
抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。

来自主题: AI技术研报
8458 点击    2025-11-04 10:42
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义(理解)和细节(生成 / 编辑)。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器,面临理解与重建的权衡:直接量化 CLIP 特征会损害理解性能;而为冻结的 CLIP 训练解码器,又因特征细节缺失而无法精确重建。例如,RAE 使用冻结的 DINOv2 重建,PSNR 仅 19.23。

来自主题: AI技术研报
7426 点击    2025-11-03 09:50
VaseVQA:考古领域实现专家级,诊断+补弱RL框架

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

VaseVQA:考古领域实现专家级,诊断+补弱RL框架

在文化遗产与人工智能的交叉处,有一类问题既美也难:如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案,还能推断年代、产地、工坊甚至艺术归属?有研究人员给出了一条实用且富有启发性的答案:把大型多模态模型(MLLM)放在「诊断—补弱—精细化评估」的闭环中训练,并配套一个结构化的评测基准,从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报
6494 点击    2025-10-29 09:53
Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段,图像编辑(Image Editing)正逐渐取代一次性生成,成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型?

来自主题: AI技术研报
6302 点击    2025-10-25 14:26
MIT成果登Nature正刊:90天,「AI科学家」完成3500次电化学测试

MIT成果登Nature正刊:90天,「AI科学家」完成3500次电化学测试

MIT成果登Nature正刊:90天,「AI科学家」完成3500次电化学测试

美国麻省理工学院李巨团队在国际顶尖学术期刊Nature上发表了一篇研究论文,展示了一种多模态机器人平台CRESt(Copilot for Real-world Experimental Scientists),通过将多模态模型(融合文本知识、化学成分以及微观结构信息)驱动的材料设计与高通量自动化实验相结合,大幅提升催化剂的研发速度和质量。

来自主题: AI技术研报
7435 点击    2025-10-20 15:36
是RAG已死,还是RAG Anything,All in RAG?

是RAG已死,还是RAG Anything,All in RAG?

是RAG已死,还是RAG Anything,All in RAG?

每隔一阵子,总有人宣告“RAG已死”:上下文越来越长、端到端多模态模型越来越强,好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景,你会发现死掉的只是“只切文本的旧RAG”。

来自主题: AI技术研报
6207 点击    2025-10-20 12:08
LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

2 天前,国内最大的 AI 多模态模型社区之一的 LiblibAI 进行了一次大升级,正式推出了 2.0 版本。对许多创作者而言,这个平台并不陌生,LiblibAI 一直是国内开源绘画与 LoRA 文化的重要发源地,也常被称为中国版的 CivitAI (大家常说的 C 站)。

来自主题: AI资讯
8453 点击    2025-10-19 10:45