摘要
本发明涉及光学字符识别技术领域,公开了一种基于OCR的视频轴文件智能精确提取方法及系统,该方法包括:提取目标视频帧的OCR文本特征、图像特征和音频特征;对目标视频帧进行分析,得到场景类型,并融合特征向量,基于预训练的自适应注意力模型和融合特征向量,得到加权特征向量;对加权特征向量进行建模,得到隐藏状态序列信息;基于隐藏状态序列信息、长短期记忆网络模型、提取任务信息、场景类型、预训练的深度网络方法和目标视频帧,生成目标视频帧轴文件。通过实施本发明,综合利用信息和方法,能够根据不同视频类型和内容自动调整提取策略,生成准确完整的视频帧轴文件,解决了传统方法提取的视频轴文件准确性和完整性较差的问题。