摘要
本发明公开了一种文字提取与处理方法,涉及信息处理技术领域,本发明收集包含文字的图像数据集,并对每个图像标注文字区域的边界框,将视频文件解码为一系列视频帧,并采样其中的帧作为输入,基于YOLO或Faster R‑CNN目标检测算法配置相应的模型架构和超参数,基于优化后的模型进行文字区域和视频帧的推理,获取文字区域的边界框位置和类别信息,基于深度学习的OCR模型对预处理后的文字区域图像进行文字识别,获取文字的文本内容并对文本内容进行后处理。无需手动标注或设定阈值,减少了人工工作量和主观因素的影响,减少主观性和人为干预,同时同样适用于视频数据,通过对视频帧进行逐帧处理或关键帧提取的方式,实现对视频中的文字区域的检测。