摘要
本发明涉及机械臂控制技术领域,尤其涉及一种基于行为克隆的机械臂连续轨迹跟踪控制系统,包括机械臂特征表达模块、比例智能体模块、行为克隆模块、多智能体模块、PI D控制模块、奖励确定模块和更新模块,结合行为克隆采用多智能体深度强化学习的方法控制机械臂,PI D智能体和DDR智能体两个智能体共同输出扭矩控制同一个机械臂,并采用两个奖励函数来优化两个智能体的策略网络,PI D智能体用于输出PI D控制器的参数再由PI D控制器输出力矩控制机械臂,使机械臂能够跟踪不同于训练轨迹的其他轨迹,DDR智能体则直接输出扭矩增加控制器的抗干扰性,面对具有强随机干扰以及多变的环境下,具备抗干扰能力,提高了机械臂的运行精准度。