AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
喝点VC|a16z重磅预测:AI虚拟人将孕育众多市值达数十亿美元的行业巨头

喝点VC|a16z重磅预测:AI虚拟人将孕育众多市值达数十亿美元的行业巨头

喝点VC|a16z重磅预测:AI虚拟人将孕育众多市值达数十亿美元的行业巨头

AI虚拟人模型架构从CNN、GANs演进至Transformer+扩散模型,实现从单一面部驱动到半身/全身动态生成的跨越,口型同步与多模态协同表现显著提升。

来自主题: AI资讯
7054 点击    2025-04-23 15:17
图片模型最具创意实践指南 - 创意人的春天已来!

图片模型最具创意实践指南 - 创意人的春天已来!

图片模型最具创意实践指南 - 创意人的春天已来!

GPT-4o更新的端到端多模态模型,让创意端获得前所未有的自由度。

来自主题: AI资讯
7172 点击    2025-04-21 15:14
Cohere推出新一代多模态搜索模型Embed 4,在数据处理长文本建模和跨模态能力显著提升

Cohere推出新一代多模态搜索模型Embed 4,在数据处理长文本建模和跨模态能力显著提升

Cohere推出新一代多模态搜索模型Embed 4,在数据处理长文本建模和跨模态能力显著提升

2025年4月16日,Cohere 发布了其最新一代多模态搜索模型 Embed 4,在多模态数据处理、长文本建模和跨模态检索能力上实现了显著提升,进一步巩固了其在企业级 AI 搜索领域的领先地位。

来自主题: AI资讯
4153 点击    2025-04-18 10:16
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

当前,所有主流的视觉基础模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率,这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

来自主题: AI技术研报
5921 点击    2025-04-17 13:54
视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

北京大学团队继VARGPT实现视觉理解与生成任务统一之后,再度推出了VARGPT-v1.1版本。该版本进一步提升了视觉自回归模型的能力,不仅在在视觉理解方面有所加强,还在图像生成和编辑任务中达到新的性能高度

来自主题: AI技术研报
6687 点击    2025-04-16 09:44