一种文字提取与处理方法

申请号：CN202411827869

申请日期：2024-12-12

公开号：CN119763131A

公开日期：2025-04-04

类型：发明专利

摘要

本发明公开了一种文字提取与处理方法，涉及信息处理技术领域，本发明收集包含文字的图像数据集，并对每个图像标注文字区域的边界框，将视频文件解码为一系列视频帧，并采样其中的帧作为输入，基于YOLO或Faster R‑CNN目标检测算法配置相应的模型架构和超参数，基于优化后的模型进行文字区域和视频帧的推理，获取文字区域的边界框位置和类别信息，基于深度学习的OCR模型对预处理后的文字区域图像进行文字识别，获取文字的文本内容并对文本内容进行后处理。无需手动标注或设定阈值，减少了人工工作量和主观因素的影响，减少主观性和人为干预，同时同样适用于视频数据，通过对视频帧进行逐帧处理或关键帧提取的方式，实现对视频中的文字区域的检测。

技术关键词

文字区域图像视频帧检测模型训练文本信息处理技术人工工作量训练集数据解码视频算法纠正错误网络架构关键帧格式化时序超参数