一种开放词汇细粒度手部动作检测方法、系统及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种开放词汇细粒度手部动作检测方法、系统及产品
申请号:CN202510807139
申请日期:2025-06-17
公开号:CN120766347A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种开放词汇细粒度手部动作检测方法、系统及产品,首先利用文本骨干网提取细粒度手部动作类别的文本细粒度特征;然后提取输入视频帧或图像的视觉细粒度特征;接着利用文本和视觉细粒度特征,生成全局跨模态视觉‑文本特征,进一步利用双向选择与融合机制,输出局部双向选择后的跨模态视觉‑文本细粒度特征,进一步与全局跨模态视觉‑文本特征按原提取位置相加后,与局部双向选择后的文本细粒度特征输入跨模态查询生成器,生成增强跨模态查询;最后通过跨模态解码器,输出手部动作的边界框及细粒度类别预测。本发明有效突出了最佳匹配的多模态细粒度特征,使模型在对新颖未见的手部动作实现有效泛化的同时,保持各类别间性能平衡。
技术关键词
动作检测方法 细粒度特征 跨模态 文本 注意力 动作检测模型 计算机程序指令 解码器 动作检测系统 矩阵 全局视觉特征 生成位置信息 融合图像特征 适配器 机制 前馈神经网络 预训练模型 处理器