准确回答视频细节!11B模型挑战视频理解「证据级」任务,开源可商用
准确回答视频细节!11B模型挑战视频理解「证据级」任务,开源可商用让一个模型概括“这是一段什么视频”,并不难。
来自主题: AI技术研报
5621 点击 2026-04-14 08:41
让一个模型概括“这是一段什么视频”,并不难。
今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 —— MOVA(MOSS-Video-and-Audio)。