摘要
本发明公开了一种等离子体位形控制代理策略模型构建方法、装置及介质,通过构建托卡马克仿真环境,识别出PID控制器控制下失控场景的环境配置参数,得到配置的训练环境;采用强化学习代理模型进行学习,生成电流命令;基于托卡马克仿真环境中计算各时刻的控制点状态;将各时刻的控制点状态,电流命令与PID控制器得到的动作命令输入到奖励函数中,计算环境奖励;根据环境奖励、各时刻的控制点状态以及电流命令进行强化学习训练,更新命令策略;当强化学习代理模型符合收敛条件时,输出代理策略模型。本申请方案提供一种在非线性和复杂动态环境中应对瞬态较大扰动的能力的策略模型,保障托卡马克装置的稳定性和安全性。