AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。

来自主题: AI技术研报
3066 点击    2024-10-30 13:59
谷歌Q3电话会:25%的代码由AI完成,未来将推出多模态项目Astra

谷歌Q3电话会:25%的代码由AI完成,未来将推出多模态项目Astra

谷歌Q3电话会:25%的代码由AI完成,未来将推出多模态项目Astra

三季度谷歌母公司Alphabet总营收同比增长15%,EPS盈利增近37%远超预期;各业务中云营收增长最迅猛,云业务营业利润同比增超六倍、均再创单季新高;资本支出在二季度环比增近10%后转降0.9%,略高于预期;三季度广告收入增逾10%,其中谷歌搜索和YouTube广告的营收连续两季放缓,仍高于预期;YouTube广告和订阅总收入一年来首次单季突破500亿美元。

来自主题: AI资讯
8323 点击    2024-10-30 10:38
Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus 是 DeepSeek AI 开发的一个先进的多模态理解和生成框架,它通过创新性地解耦视觉编码路径来应对多模态理解和生成任务之间的需求冲突。

来自主题: AI技术研报
7600 点击    2024-10-29 14:46
PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)是一项创新的多模态大型语言模型(MLLM),由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示,巧妙地平衡了视觉生成任务中的多样性与可控性。

来自主题: AI技术研报
3817 点击    2024-10-29 14:32
新扩散模型OmniGen一统图像生成,架构还高度简化、易用

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。

来自主题: AI技术研报
10601 点击    2024-10-29 13:38
开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

原生多模态大模型性能瓶颈,迎来新突破! 上海AI Lab代季峰老师团队,提出了全新的原生多模态大模型Mono-InternVL。 与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。

来自主题: AI技术研报
3998 点击    2024-10-25 15:37
图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

北京大学的研究人员开发了一种新型多模态框架FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。

来自主题: AI技术研报
3899 点击    2024-10-25 11:03
自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD,将图像融合和目标检测整合到一个单阶段、端到端框架中,简化训练的同时,提升目标解析性能。 相关论文已入选顶会NeurlPS 2024 Oral,代码、模型均已开源。

来自主题: AI技术研报
4384 点击    2024-10-25 10:56