多模态文档结构化处理方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
多模态文档结构化处理方法、装置、设备及介质
申请号:CN202510126948
申请日期:2025-01-27
公开号:CN120068810A
公开日期:2025-05-30
类型:发明专利
摘要
本申请公开了一种多模态文档结构化处理方法、装置、设备及介质。针对从待处理文档中提取到的不同其他数据类型,可以根据预设的该其他数据类型对应的结构化处理步骤,对该其他数据类型的数据进行结构化处理,从而实现深度挖掘该其他数据类型的数据所携带的信息,以及多模态数据的有效整合与利用,将待处理文档中的各其他数据类型的数据所携带的信息以统一的、结构化的形式呈现出来。对于图像数据,通过区分文字图像类型和非文字图像类型并采取不同的处理方式,使得对图像数据中携带的信息提取更加精准。对于表格数据,通过获取表头名称、行名称,并为每个数据项生成描述性文本,将表格数据从简单的数值矩阵转化为具有丰富语义的信息集合。
技术关键词
数据项 表格 文本 多模态 图像内容识别 表头 自然语言 计算机设备 处理单元 处理器 关系 可读存储介质 语义 存储器 矩阵 数值