摘要
本发明属于计算机视觉技术领域,聚焦于人物交互检测(HOI)任务。针对现有HOI检测方法在多尺度特征利用与远距离交互检测方面存在的不足,如CNN局部感受野限制全局语义捕捉、Transformer处理极端尺度差异易混淆特征等问题,提出一种基于多尺度语义注意力机制的人物交互检测方法。方法在Trans former模型主干特征提取网络引入基于PVT的多尺度融合模块,构建多级网络特征增强检测能力,将DETR检测结果进行语义特征建模,通过多尺度特征和交互语义特征改进Transformer解码器的注意力机制,自注意力解码交互语义特征、交叉注意力融合多尺度颗粒特征预测人物交互结果,实现了多尺度高准确度的人物交互检测方法。