一种基于多模态大模型的场景感知和交互方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的场景感知和交互方法及系统
申请号:CN202510363859
申请日期:2025-03-26
公开号:CN120347789A
公开日期:2025-07-22
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的场景感知和交互方法及系统,属于机器人技术领域,该方法的实现包括以下步骤:通过视觉传感器采集场景中的图片信息;将所述图片信息输入多模态大模型,获取场景语义信息;基于所述场景语义信息,对场景进行感知;将当前场景语义信息与预设交互条件进行比对,判定是否需要进行环境交互;当满足交互条件时,执行相应的交互行为。本发明解决了单一模态感知的局限性,提升了机器人的智能化交互能力,并显著提高了机器人在动态环境中的响应速度。
技术关键词
多模态 交互方法 场景 语义 特征提取模型 机器可读程序 大语言模型 视觉传感器 图片 机器人系统 动态物体 机器运行状态 交互内容 计算机 机器人技术 机械臂 交互装置 交互系统