摘要
本发明提供了一种自适应AI面试的方法、装置、电子设备和存储介质,属于人工智能的技术领域,该方法中,可根据面试回答动态调整下一步的操作(即规则指令,或,策略优化行为,具体为下一面试问题,或,终止面试),动态适应性好,更加灵活,另外,在综合评分时,采用了混合评分策略,更加科学,当当前状态不满足预设规则中的触发条件时,还会采用离线强化学习智能体对当前状态进行智能决策,进而得到策略优化行为,准确性更好,此外,预设规则为预先配置的,可控性好,且离线强化学习智能体为保守Q学习算法,在训练时,会通过保守正则化项抑制训练数据集分布外的行为的Q值高估,这样,不合规的行为会被抑制,也就是更加可控,合规。