摘要
本发明公开了一种开放词汇细粒度手部动作检测方法、系统及产品,首先利用文本骨干网提取细粒度手部动作类别的文本细粒度特征;然后提取输入视频帧或图像的视觉细粒度特征;接着利用文本和视觉细粒度特征,生成全局跨模态视觉‑文本特征,进一步利用双向选择与融合机制,输出局部双向选择后的跨模态视觉‑文本细粒度特征,进一步与全局跨模态视觉‑文本特征按原提取位置相加后,与局部双向选择后的文本细粒度特征输入跨模态查询生成器,生成增强跨模态查询;最后通过跨模态解码器,输出手部动作的边界框及细粒度类别预测。本发明有效突出了最佳匹配的多模态细粒度特征,使模型在对新颖未见的手部动作实现有效泛化的同时,保持各类别间性能平衡。