一种基于多模态大模型的场景感知和交互方法及系统

申请号：CN202510363859

申请日期：2025-03-26

公开号：CN120347789A

公开日期：2025-07-22

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的场景感知和交互方法及系统，属于机器人技术领域，该方法的实现包括以下步骤：通过视觉传感器采集场景中的图片信息；将所述图片信息输入多模态大模型，获取场景语义信息；基于所述场景语义信息，对场景进行感知；将当前场景语义信息与预设交互条件进行比对，判定是否需要进行环境交互；当满足交互条件时，执行相应的交互行为。本发明解决了单一模态感知的局限性，提升了机器人的智能化交互能力，并显著提高了机器人在动态环境中的响应速度。

技术关键词

多模态交互方法场景语义特征提取模型机器可读程序大语言模型视觉传感器图片机器人系统动态物体机器运行状态交互内容计算机机器人技术机械臂交互装置交互系统