引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟现有的视觉大模型普遍存在「语义-几何鸿沟」(Semantic-to-Geometric Gap),不仅分不清东南西北,更难以处理精确的空间量化任务。例如问「你坐在沙发上时,餐桌在你的哪一侧?」,VLM 常常答错。
来自主题: AI技术研报
6671 点击 2026-01-13 10:20
搜索
现有的视觉大模型普遍存在「语义-几何鸿沟」(Semantic-to-Geometric Gap),不仅分不清东南西北,更难以处理精确的空间量化任务。例如问「你坐在沙发上时,餐桌在你的哪一侧?」,VLM 常常答错。