一种基于多模态大模型的场景感知和交互方法及系统
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于多模态大模型的场景感知和交互方法及系统
申请号:
CN202510363859
申请日期:
2025-03-26
公开号:
CN120347789A
公开日期:
2025-07-22
类型:
发明专利
摘要
本发明公开了一种基于多模态大模型的场景感知和交互方法及系统,属于机器人技术领域,该方法的实现包括以下步骤:通过视觉传感器采集场景中的图片信息;将所述图片信息输入多模态大模型,获取场景语义信息;基于所述场景语义信息,对场景进行感知;将当前场景语义信息与预设交互条件进行比对,判定是否需要进行环境交互;当满足交互条件时,执行相应的交互行为。本发明解决了单一模态感知的局限性,提升了机器人的智能化交互能力,并显著提高了机器人在动态环境中的响应速度。
技术关键词
多模态
交互方法
场景
语义
特征提取模型
机器可读程序
大语言模型
视觉传感器
图片
机器人系统
动态物体
机器运行状态
交互内容
计算机
机器人技术
机械臂
交互装置
交互系统