动作序列生成方法、装置、设备及介质

申请号：CN202510918104

申请日期：2025-07-03

公开号：CN120791751A

公开日期：2025-10-17

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于机械臂抓取、金融科技及医疗健康等业务场景中，公开了一种动作序列生成方法、装置、设备及介质，包括：获取任务对应的环境视觉信息和任务描述信息，利用视觉编码器和语言编码器分别生成视觉特征向量和语言特征向量；融合视觉特征向量和语言特征向量，得到多模态融合特征，并将该特征输入语言模型进行处理，生成初始动作策略；通过与语言模型集成的动作解码器，根据初始动作策略生成动作序列。本发明通过融合视觉与语言信息，实现了在复杂任务环境下的自适应决策，增强了系统在动态变化环境中的适应能力；通过多模态特征融合，有效提升操作精度和系统的泛化能力。

技术关键词

动作序列生成方法动作策略语言编码器生成动作融合特征多模态解码器生成程序序列生成装置深度卷积特征注意力上下文特征融合视觉池化特征交互特征加权特征编码特征