基于OCR的视频轴文件智能精确提取方法及系统

申请号：CN202510443080

申请日期：2025-04-09

公开号：CN120298951B

公开日期：2025-12-09

类型：发明专利

摘要

本发明涉及光学字符识别技术领域，公开了一种基于OCR的视频轴文件智能精确提取方法及系统，该方法包括：提取目标视频帧的OCR文本特征、图像特征和音频特征；对目标视频帧进行分析，得到场景类型，并融合特征向量，基于预训练的自适应注意力模型和融合特征向量，得到加权特征向量；对加权特征向量进行建模，得到隐藏状态序列信息；基于隐藏状态序列信息、长短期记忆网络模型、提取任务信息、场景类型、预训练的深度网络方法和目标视频帧，生成目标视频帧轴文件。通过实施本发明，综合利用信息和方法，能够根据不同视频类型和内容自动调整提取策略，生成准确完整的视频帧轴文件，解决了传统方法提取的视频轴文件准确性和完整性较差的问题。

技术关键词

音频特征视频帧长短期记忆网络精确提取方法注意力模型文本环境状态信息场景综合利用信息图像光学字符识别技术序列关键词强化学习模型直方图均衡化数据视频解码

系统为您推荐了相关专利信息

一种电子证照副本的生成方法、系统、设备和存储介质

音频特征数据关键词特征副本生成方法电子

视频问答方法、设备及介质

视频帧关键信息提取方法特征提取模型视频问答方法序列

基于边缘计算和算力调度的面料瑕疵检测与溯源系统

溯源系统面料双向长短期记忆网络参数瑕疵

基于卫星时空特征映射的自主低轨星座物联网流量预测方法、装置、电子设备及存储介质

流量预测模型物联网流量低轨星座时空特征信息门控循环单元

图文多模态情感分类方法、装置、计算机设备及存储介质

情感类别融合特征文本长短期记忆网络注意力模型