AI资讯新闻榜单内容搜索-CLAP

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2，他们第一个原生多模态向量模型。文本、图像、视频、音频、文档，全部映射到同一个 3072 维向量空间。这是 Omni Embedding（全模态向量模型）的大趋势：一个架构吃下所有模态，从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5，大家都在往这个方向收敛。

来自主题: AI技术研报

6123 点击 2026-03-16 15:06

让机器人看视频学操作技能，清华等全新发布的CLAP框架做到了

近日，清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练（Contrastive Latent Action Pretraining, CLAP）框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐，也就是说，机器人能够直接从视频中学习技能！

来自主题: AI技术研报

8174 点击 2026-01-19 15:13

开源AI视频工具，你只需要当导演，HuggingFace工程师打造

用 Clapper 做视频，你只需要当导演就行了。

来自主题: AI资讯

8377 点击 2024-08-13 18:24