摘要
一种自适应强化学习驱动的加速器多目标优化方法,属于加速器的优化设计的技术领域。本发明首先分析卷积循环展开因子、量化精度、缓存划分关键设计变量的作用机制,建立系统级状态建模方法,并设计适用于连续动作空间优化的DDPG框架作为配置策略的学习器;同时,在CPU端运行Python脚本以实现轻量级搜索器,对卷积运算的Loop‑3与Loop‑4的分块参数进行实时搜索和分配,从而减轻强化学习代理的计算负担。最终提出一种强化学习驱动的自适应配置方法及配套搜索流程,实现展开尺度、量化精度与分块参数的联合优化。