AI资讯新闻榜单内容搜索-CLIP

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

LeCun谢赛宁等研究人员通过新模型Web-SSL验证了SSL在多模态任务中的潜力，证明其在扩展模型和数据规模后，能媲美甚至超越CLIP。这项研究为无语言监督的视觉预训练开辟新方向，并计划开源模型以推动社区探索。

来自主题: AI技术研报

7068 点击 2025-04-07 15:09

扩展无语言的视觉表征学习。

来自主题: AI技术研报

6039 点击 2025-04-03 15:06

CLIP、DINO、SAM 基座的重磅问世，推动了各个领域的任务大一统，也促进了多模态大模型的蓬勃发展。

来自主题: AI技术研报

8221 点击 2025-03-18 17:20

近年来大语言模型（LLM）的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而，现有主流多模态大模型（MLLM）依赖复杂的外部视觉模块（如 CLIP 或扩散模型），导致系统臃肿、扩展受限，成为跨模态智能进化的核心瓶颈。

来自主题: AI技术研报

8312 点击 2025-03-04 09:52

最近，我们团队的一位工程师在研究类 ColPali 模型时，受到启发，用新近发布的 jina-clip-v2 模型做了个颇具洞察力的可视化实验。

来自主题: AI资讯

8811 点击 2025-01-10 10:48

Florence-VL 提出了使用生成式视觉编码器 Florence-2 作为多模态模型的视觉信息输入，克服了传统视觉编码器（如 CLIP）仅提供单一视觉表征而往往忽略图片中关键的局部信息。

来自主题: AI技术研报

7237 点击 2024-12-18 14:21

在当今多模态领域，CLIP 模型凭借其卓越的视觉与文本对齐能力，推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习，将视觉与语言信号嵌入到同一特征空间中，受到了广泛应用。

来自主题: AI技术研报

5364 点击 2024-11-27 14:41

AI剪辑，一条闷声赚大钱的赛道。

来自主题: AI资讯

5811 点击 2024-11-26 10:22

「多模态」这个词，相信各位开发者已经比较熟悉了，多模态的含义是让 AI 同时理解包含如图像和文本在内的多种类型的数据。

来自主题: AI资讯

8309 点击 2024-11-15 10:38

7 个月时间，用户量超过 500 万，ARR 收入接近 1000 万美元。 OpusClip 可以说是目前 AI 视频剪辑工具的头号种子

来自主题: AI资讯

4207 点击 2024-11-02 10:38