AI资讯新闻榜单内容搜索-CLAP

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: CLAP
从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2,他们第一个原生多模态向量模型。文本、图像、视频、音频、文档,全部映射到同一个 3072 维向量空间。这是 Omni Embedding(全模态向量模型)的大趋势:一个架构吃下所有模态,从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5,大家都在往这个方向收敛。

来自主题: AI技术研报
5441 点击    2026-03-16 15:06
让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

近日,清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能!

来自主题: AI技术研报
7667 点击    2026-01-19 15:13