
Gemini 2.5疯狂反扑OpenAI,智商130碾压人类!一键3D打印蛋糕、秒解魔方
Gemini 2.5疯狂反扑OpenAI,智商130碾压人类!一键3D打印蛋糕、秒解魔方AI圈最热的风头莫过于GPT-4o的原生图像,但别急着下定论。Gemini 2.5 Pro正在悄悄反击,在Chatbot竞技场夺冠、IQ测试拿下第一后,它还能解魔方、建模型、创游戏,甚至一键生成3D打印文件!AI的下一个战场,正在从文字转向视觉与空间,谁能笑到最后?
AI圈最热的风头莫过于GPT-4o的原生图像,但别急着下定论。Gemini 2.5 Pro正在悄悄反击,在Chatbot竞技场夺冠、IQ测试拿下第一后,它还能解魔方、建模型、创游戏,甚至一键生成3D打印文件!AI的下一个战场,正在从文字转向视觉与空间,谁能笑到最后?
论文第一作者为余鑫,香港大学三年级博士生,通讯作者为香港大学齐晓娟教授。主要研究方向为生成模型及其在图像和 3D 中的应用,发表计算机视觉和图形学顶级会议期刊论文数十篇,论文数次获得 Oral, Spotlight 和 Best Paper Honorable Mention 等荣誉。此项研究工作为作者于 Adobe Research 的实习期间完成。
3D生成版DeepSeek再上新高度!
从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。
三维高斯泼溅(3D Gaussian Splatting, 3DGS)技术基于高斯分布的概率模型叠加来表征场景,但其重建结果在几何和纹理边界处往往存在模糊问题。
「仅需一次前向推理,即可预测相机参数、深度图、点云与 3D 轨迹 ——VGGT 如何重新定义 3D 视觉?」
3 月 28 日,专注于构建通用 3D 大模型的 VAST 一口气开源了两个 3D 生成项目 ——TripoSG 和 TripoSF。前者是一款基础 3D 生成模型,在图像到 3D 生成任务上远超所有闭源模型;后者则是 VAST 新一代三维基础模型 TripoSF 能在所有闭源模型中同样取得 SOTA 的基础组件,用于高分辨率的三维重建和生成任务。
在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了?
从手机随手拍、汽车行车记录仪到无人机航拍,如何从海量无序二维图像快速生成高精度三维场景?
它名为 Uni-3DAR,来自深势科技、北京科学智能研究院及北京大学,是一个通过自回归下一 token 预测任务将 3D 结构的生成与理解统一起来的框架。据了解,Uni-3DAR 是世界首个此类科学大模型。并且其作者阵容非常强大,包括了深势科技 AI 算法负责人柯国霖、中国科学院院士鄂维南、深势科技创始人兼首席科学家和北京科学智能研究院院长张林峰等。