从过拟合到通用!ViMoGen开启3D人体动作生成新纪元
从过拟合到通用!ViMoGen开启3D人体动作生成新纪元随着 AIGC(Artificial Intelligence Generated Content) 的爆发,我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而,3D 人体动作生成(3D MoGen)领域却稍显滞后。
随着 AIGC(Artificial Intelligence Generated Content) 的爆发,我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而,3D 人体动作生成(3D MoGen)领域却稍显滞后。
Manus 卖给 Meta 这事儿,最近闹得沸沸扬扬。
尽管多模态大语言模型(MLLMs)在识别「图中有什么」这一语义层面上取得了巨大进步,但在理解「图像看起来怎么样」这一感知层面上仍显乏力。
本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。
之前刷到个帖子,提到有部讲述中国高铁发展的纪录片,用了AI生成的画面。这部纪录片是系列节目中的一集,有争议的画面展示了一段架梁作业的过程。整个画面AI味十足,也不符合实际情况。
在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。
两天前,DeepSeek悄无声息地把R1的论文更新了,从原来22页「膨胀」到86页。DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事!
刚刚,全球大模型第一股,终于在港交所敲钟!被称为中国版OpenAI的智谱正式挂牌上市(股票代码2513)。不仅拿下全球首家AGI基座模型上市公司头衔,首日开盘涨超3%,报120港元/股,市值突破528亿港元。
AI 助手以类似手办的形式出现在桌面上,这样的场景你想象过吗?近日,CES 2026 展上,在琳琅满目的 AI 为核心的技术与产品中,一个「装在罐子里」的二次元少女形象的「桌面 AI 伙伴」,成为其中最具话题性的展示之一。这是由游戏外设公司 Razer (雷蛇)推出的 Project Ava,官方定位是「与您形影不离的 AI 桌面伴侣」,
CES每年都在找「下一个iPhone时刻」。2026年,答案可能不在手机,而在你家客厅。而谷歌却悄悄在最不起眼的地方——你家客厅的电视机里,埋下了一颗重磅炸弹。不需要昂贵的头显,也不需要把芯片植入大脑,谷歌直接宣布:电视机,长脑子了。