摘要
本发明提供了一种基于上下文提示的世界模型增强方法及装置,属于深度强化学习技术领域。方法根据当前图像输入得到图像描述语句;通过卷积神经网络得到当前图像输入的向量表示,利用语言模型得到图像描述语句的向量表示,将图向量表示与语句向量表示拼接,得到新的向量表示;将新的向量表示利用循环神经网络实现对世界模型的建模,世界模型根据当前的向量输入,在历史动作和环境信息上下文基础上进行动作决策,有效减轻了智能体探索时的轨迹回退现象出现的频率。在环境变化时,智能体能根据上下文信息及时进行调整,提高智能体的适应性与灵活性。本发明有效减少了智能体错误决策的可能性,有效提升了在限定步数之内智能体的背景任务完成数量。