摘要
本发明公开了一种文档表格的提取方法、装置、设备及介质,涉及计算机信息处理技术领域。提取方法包括:对待处理的文档表格图像进行OCR识别,得到文本块;对文档表格图像进行视觉特征编码,得到深层视觉特征;对文本块的文本序列进行语义特征编码,得到语义特征向量;对文本块的边界框进行空间特征编码,得到空间特征向量;将深层视觉特征、语义特征向量和空间特征向量进行特征融合处理,得到多模态引导特征;对多模态引导特征进行结构化解码处理,得到表格的结构化表示。本发明通过OCR预识别的文本及位置信息与文档表格视觉特征融合,引导视觉特征的重新表达,主动对齐到由先验信息定义的逻辑结构上,提高了表格逻辑结构的提取准确性。