AI资讯新闻榜单内容搜索-Image

数据邪修大法好：仅用文本数据就能预训练多模态大模型

没有图片，也能预训练多模态大模型?在多模态大模型（MLLM）的研发中，行业内长期遵循着一个昂贵的共识：没有图文对（Image-Text Pairs），就没有多模态能力。

来自主题: AI技术研报

8818 点击 2026-03-03 14:25

谷歌深夜突发Nano Banana 2，生图圈天塌了！Pro级4K大片，价格砍半

一周一更，谷歌又在深夜扔出「深水炸弹」。就在刚刚，最强生图模型Nano Banana 2横空出世，背靠全新Gemini 3.1 Flash Image。它不仅生成速度飞快，多语言文字处理更强，还能实时联网，一次直出4K大片。

来自主题: AI资讯

10003 点击 2026-02-27 10:07

Nano Banana 2，泄露！

过去48小时，Nano Banana 2成为AI开发者圈的热议话题。在海外社交平台X上，关于谷歌这款最新图片生成模型（又名Gemini 3.1 Flash Image预览版）将发布的帖子层出不穷，4K图片四处流传，各种猜测也甚嚣尘上。

来自主题: AI资讯

9627 点击 2026-02-25 21:41

46.5万次盲测封王！Grok视频模型屠榜Arena，谷歌最强对手来了

xAI的Grok图像转视频模型（grok-image-video-720p）登顶「Image-to-Video Arena」排行榜，以1404分的超高ELO评分力压群雄，位居第一。马斯克亲自发帖为自家Grok Image模型站台，称它每周都在迭代优化。

来自主题: AI资讯

11654 点击 2026-02-25 15:07

ICLR 2026 | 阿里高德发布SpatialGenEval，揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval，旨在通过长文本、高信息密度的 T2I prompt 设计，以及围绕空间感知

来自主题: AI技术研报

10538 点击 2026-02-22 11:17