AI资讯新闻榜单内容搜索-多模态模型

开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测

SenseNova U1 是商汤最新发布的一个开源的多模态模型，它的 Lite 系列 8B 和 A3B 参数版本，目前已经在 Hugging Face 和 GitHub 上开源。APPSO 也提前拿到了测试资格，我们发现商汤这款新一代原生理解生成统一模型，就开源模型来说，已经做到了最好水平。

来自主题: AI产品测评

9978 点击 2026-04-29 19:51

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache，刷新多模态生成模型推理加速新基准

FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存（Feature Caching）方案在追求高倍率加速时，常因瞬时速度的剧烈波动导致轨迹漂移。

来自主题: AI技术研报

8408 点击 2026-04-01 16:13

1毫秒级，最快的人体动作捕捉服！开源715万帧数据集| CVPR'26

全球首个1毫秒级人体动作捕捉系统FlashCap，通过闪烁LED与事件相机结合，实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境，低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose，显著提升运动分析精度，推动体育、VR与机器人领域迈向高动态智能新阶段。

来自主题: AI技术研报

6896 点击 2026-03-31 14:40

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文，介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复，而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark，MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报

8966 点击 2026-03-30 15:02

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

过去几年，多模态模型在理解任务上快速演进，图像问答、OCR、视觉推理、跨模态对话等能力不断提升；与此同时，图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是：能否用同一个模型，同时做好理解与生成？这正是统一多模态模型（Unified Multimodal Models, UMMs）正在回答的问题。

来自主题: AI技术研报

7438 点击 2026-03-26 14:45