摘要
本发明涉及人工智能技术领域,可应用于机械臂抓取、金融科技及医疗健康等业务场景中,公开了一种动作序列生成方法、装置、设备及介质,包括:获取任务对应的环境视觉信息和任务描述信息,利用视觉编码器和语言编码器分别生成视觉特征向量和语言特征向量;融合视觉特征向量和语言特征向量,得到多模态融合特征,并将该特征输入语言模型进行处理,生成初始动作策略;通过与语言模型集成的动作解码器,根据初始动作策略生成动作序列。本发明通过融合视觉与语言信息,实现了在复杂任务环境下的自适应决策,增强了系统在动态变化环境中的适应能力;通过多模态特征融合,有效提升操作精度和系统的泛化能力。