
谢赛宁团队新作:不用提示词精准实现3D画面控制
谢赛宁团队新作:不用提示词精准实现3D画面控制曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。
曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。
让游戏行业真正成为创意产业,而不是劳动密集型产业。
万万没想到。我居然收到了人生中,AI送给我的第一杯奶茶。
中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习。
TaoAvatar 是由阿里巴巴淘宝 Meta 技术团队研发的 3D 真人数字人技术,这一技术能在手机或 XR 设备上实现 3D 数字人的实时渲染以及 AI 对话的强大功能,为用户带来逼真的虚拟交互体验。
在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。
一个融合真实地理空间与AI生成技术的开放世界模拟平台,由Genesis物理引擎驱动,支持人类与机器人在社区中共同互动、成长与演化。
ZPressor能高效压缩3D高斯泼溅(3DGS)模型的多视图输入,解决其在处理密集视图时的性能瓶颈,提升渲染效率和质量。
本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。
NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏,AI不仅掌握了游戏技巧,还培养出强大的跨领域推理能力,在数学、几何等复杂任务上击败GPT-4o等顶级模型。