AI资讯新闻榜单内容搜索-多模态

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

在当今多模态领域，CLIP 模型凭借其卓越的视觉与文本对齐能力，推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习，将视觉与语言信号嵌入到同一特征空间中，受到了广泛应用。

来自主题: AI技术研报

6381 点击 2024-11-27 14:41

不知道从何时起，脑海里就有着阶跃星辰的多模态能力遥遥领先的印象。无论去哪旅游，以前是用谷歌地图，现在基本都用「跃问」，看到长得奇特的建筑就拍来问问，还能跟 AI Chat 一下历史。这不，最近来新加坡出差了，顺便旅旅游，就又用上了「跃问」。

来自主题: AI资讯

6822 点击 2024-11-26 09:17

该项目由忆生科技联合香港大学、上海科技大学共同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。

来自主题: AI技术研报

8252 点击 2024-11-25 15:51

在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报

9404 点击 2024-11-22 15:54

Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。

来自主题: AI技术研报

7276 点击 2024-11-22 14:41

一觉醒来，Mistral AI 又发力了。就在今天，Mistral AI 多模态家族迎来了第二位成员：一个名为 Pixtral Large 的超大杯基础模型。

来自主题: AI资讯

6282 点击 2024-11-20 08:51

北大等出品，首个多模态版o1开源模型来了—— 代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型。

来自主题: AI技术研报

6671 点击 2024-11-19 21:01

以开源极客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。

来自主题: AI技术研报

6566 点击 2024-11-19 17:15

在闭着眼睛听一首歌的时候，你有没有在脑海里想象过，应该搭配什么画面？ Kimi 内测的最新功能「创作音乐视频」，就是奔着当 MV 导演去的。长文本领先的 Kimi，默不作声地「跨界」了。APPSO 也受邀首批体验了这一新功能。

来自主题: AI产品测评

10020 点击 2024-11-18 14:44

MEGA-Bench是一个包含500多个真实世界任务的多模态评测套件，为全面评估AI模型提供了高效工具。研究人员发现，尽管顶级AI模型在多个任务中表现出色，但在复杂推理和跨模态理解方面仍有提升空间。

来自主题: AI技术研报

7782 点击 2024-11-15 15:37