无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型
无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。
文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。然而,这些主流的生成模型通常依赖于超大规模的数据集和巨大的参数量,导致计算成本高昂、落地困难,难以高效地应用于实际生产环境。
最近,斯坦福大学教授李飞飞接受了硅谷著名投资人 Reid Hoffman 和 Aria Finger 的联合播客专访。在这场对话中,李飞飞主要探讨了以下主题: ImageNet 的灵感源于难以避开模型的过拟合问题,李飞飞意识到与其苦心改进模型,不如用数据驱动。
图形学的并行计算和边际计算,在模拟物理世界和机器人训练中起到了关键作用。
视频生成领先 OpenAI 了?
OpenAI的Sora翻车后,迎来谷歌的暴击:昨天深夜,Veo 2、Imagen 3、Whisk一套组合拳打来,AI视频和生图根据,再次被谷歌改变了。
OpenAI直播划水的一天,谷歌版Sora迎来了它的2.0——
上周我们受谷歌邀请,来到了国际象棋世界冠军赛的现场。其中最激动的就是采访世界冠军丁立人老师(中国第一个男子国际象棋世界冠军!采访稿过几天会发布!)以及体验谷歌的 AI 展区!展区包括 AI 象棋解说(Chatting Chess),帮助小白和观众通俗易懂地学习如何下棋;
在2024年的AI领域,我们正在见证一个有趣的转折。 OpenAI的进展节奏明显放缓,GPT-5迟迟未能问世,“Scaling Law”成了天方夜谭,即便是年初震撼业界的视频生成模型Sora,也未能如期实现“全面开放”的承诺。
空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队!
VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。