AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

为了解决这一痛点,由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队,提出了一种名为 Laser 的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感,引入了 “Forest-before-Trees” 的认知机制,通过动态窗口对齐学习(DWAL),首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。

来自主题: AI技术研报
6388 点击    2026-05-08 14:07
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

来自主题: AI技术研报
7040 点击    2026-05-06 14:27
独家|字节迎战阿里快乐马:开源多模统一模型Mamoda2.5,推理速度快18倍

独家|字节迎战阿里快乐马:开源多模统一模型Mamoda2.5,推理速度快18倍

独家|字节迎战阿里快乐马:开源多模统一模型Mamoda2.5,推理速度快18倍

独家获悉,字节跳动日前低调公布全球首个25B级、基于混合专家 (MoE) -扩散自注意力机制(DiT) 的开源增强统一多模态模型Mamoda2.5。Mamoda2.5依托Qwen3-VL-8B、128 个专家,Top-8 路由的MoE+DiT架构搭建,最终模型参数高达250亿,而每次仅激活约30亿参数(约12%)。

来自主题: AI资讯
9563 点击    2026-05-06 10:44
OpenAI 「实时语音」架构首次公开

OpenAI 「实时语音」架构首次公开

OpenAI 「实时语音」架构首次公开

Realtime API 是 OpenAI 的实时语音交互接口,在 24 年的 DevDay 首次亮相,当时还是 beta,调用贵到离谱,音频输出 200 刀/百万 token:OpenAI 凌晨发布:Realtime 实时多模态 API,及其他

来自主题: AI技术研报
9482 点击    2026-05-06 09:49
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

为了攻克这些制约具身智能领域发展的核心难题,清华大学智能产业研究院(AIR)DISCOVER Lab联合谋先飞技术、原力灵机、求之科技和地瓜机器人,提出了GS-Playground通用多模态仿真框架。

来自主题: AI技术研报
7529 点击    2026-05-03 22:41
Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA

Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA

Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA

Google悄悄干了一件大事——Gemini Embedding 2正式进入GA阶段,成为Gemini API中第一个原生多模态embedding模型。它能把文本、图片、视频、音频、PDF文档全部映射进同一个统一向量空间,支持100多种语言。

来自主题: AI资讯
10329 点击    2026-05-02 15:05
OpenClaw 一口气补了五块地基,官方只甩了一句:「交付的比吹的多」!

OpenClaw 一口气补了五块地基,官方只甩了一句:「交付的比吹的多」!

OpenClaw 一口气补了五块地基,官方只甩了一句:「交付的比吹的多」!

OpenClaw 刚刚发布 2026.4.27 版本,一次性把 DeepInfra 多模态 provider、非图片附件链路、企业级代理路由、模型选择确定性、网关/通道/会话稳定性五件事全部补齐。近 900 人点赞,6.3 万人围观,社区却吵成两派——一边夸"终于补了生产级地基",一边追问"上几版的 gateway 坑到底填了没"。

来自主题: AI资讯
6750 点击    2026-05-02 11:18
终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用

终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用

终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用

基于视觉语言模型(VLM)的多智能体系统(MAS)正成为复杂多模态协作的核心方案,却被一个致命痛点死死卡住:多智能体视觉幻觉滚雪球——单个智能体的视觉误判通过纯文本信息流逐级放大,早期细微错误最终演变成系统性崩溃。

来自主题: AI技术研报
7384 点击    2026-05-01 10:46
刚刚,DeepSeek多模态技术范式公布,以视觉原语思考

刚刚,DeepSeek多模态技术范式公布,以视觉原语思考

刚刚,DeepSeek多模态技术范式公布,以视觉原语思考

刚刚,DeepSeek 在 Github 上正式发布了多模态模型,公布了背后的技术报告。实打实的新鲜出炉!而且是开创性的推理范式。下面我们就基于 DeepSeek 这篇技术报告,具体看看 DeepSeek、北京大学、清华大学又创造了怎样的奇迹。

来自主题: AI技术研报
9227 点击    2026-04-30 20:24
龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

伦敦大学学院(UCL)、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web,让现有多模态模型像人类一样使用网页。现有的Web Agent在面对复杂的网页结构(如 iframe、Shadow DOM)时,往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。

来自主题: AI技术研报
8178 点击    2026-04-30 08:32