
一张图or文字生成无限3D世界!斯坦福吴佳俊团队新作,让网友直呼“难以置信”
一张图or文字生成无限3D世界!斯坦福吴佳俊团队新作,让网友直呼“难以置信”斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作!
斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作!
本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。
在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。
本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。
Transformer大模型工作原理究竟是什么样的?一位软件工程师打开了大模型的矩阵世界。黑客帝国中,「矩阵模拟」的世界或许真的存在。
3D 生成是 AI 视觉领域的研究热点之一。本文中,来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去噪,并提出了一种新颖的 3D 生成方法 DMV3D,实现了新的 SOTA 结果。
Stable Diffusion官方终于对视频下手了——发布生成式视频模型Stable Video Diffusion(SVD)。
开源图像生成大模型 Stable Diffusion(SD) 的开发商 Stability AI 今天宣布了其 Stable Diffusion 平台的多项新增强功能。 这些更新不仅提供了令人兴奋的文本转图像新功能,而且还涉足 3D 内容创建领域。
最近,智源、清华和北大联合发布了全新的10亿参数的3D视觉通用模型——Uni3D,在主流3D视觉能力上取得了全方位的性能突出!
光子电子硬件的突破性发展可以显着提高人工智能和机器学习应用的处理能力,该方法使用多个射频对数据进行编码,从而能够并行进行多个计算。