摘要
本发明属于网约车技术领域,具体为一种基于UCB在线学习的动态派单半径生成系统,包括:上下文环境生成模块、参数化动作空间和在线学习引擎,所述上下文环境生成模块将时空供需状态划分为离散等级;所述参数化动作空间的每个Arm对应一组ETA和EDA参数的组合;所述在线学习引擎基于UCB算法动态选择最优Arm,生成派单半径。通过多臂老虎机框架中的UCB算法动态生成派单半径的系统及方法,以实现供需动态平衡。上下文感知的MAB框架:将时空供需状态作为上下文,实现场景化参数优化。双目标参数联合优化:ETA与EDA的组合学习,兼顾效率与用户体验。冷启动解决方案:通过上下文相似性迁移历史数据,加速收敛。