摘要
本发明提供了一种图文对比学习的多模态人脸活体检测方法、介质及设备;方法是:采用CLIP网络架构来实现人脸活体检测;CLIP网络架构包括文本编码器、图像编码器和多模态信息融合模块;将真假脸标签扩展出文本提示集,并送入文本编码器获得文本特征;将人脸图像三个模态分别输入到图像编码器提取图像特征;将三个模态图像特征分别与文本特征进行计算余弦相似度得到分类概率;若任一个模态分类概率置信度高,则直接得到检测结果;若三个模态置信度均不高,将三个模态图像特征融合后与文本特征进行计算余弦相似度,得到检测结果。该方法充分利用CLIP预训练模型蕴含跨模态知识,提取人脸图像和文本提示的基础特征,提高了模型的泛化能力。