一种符合E2B标准的XML文件生成方法、系统、设备及介质
申请号:CN202511022852
申请日期:2025-07-24
公开号:CN120951942A
公开日期:2025-11-14
类型:发明专利
摘要
本发明提供了一种符合E2B标准的XML文件生成方法、系统、设备及介质,涉及医药监管数据提交领域,其方法包括以下步骤:对输入的PDF文件进行预处理,生成标准化图像序列;通过多模态AI视觉模型识别图像序列中的文本、表格及公式元素,并结合医药领域词典进行语义纠错生成结构化数据;基于预设的E2B语义映射规则,将所述结构化数据转换为XML节点标签;将XML节点标签注入动态构建的XSD模板,通过多层校验生成初始XML文件;结合自适应复核机制,输出标准化XML文件。其通过多模态AI视觉模型、UMLS医学本体库、XSD驱动校验及自适应复核机制,实现了非结构化医疗文档到E2B标准XML的高精度、合规且可信的转换。
技术关键词
文件生成方法
生成结构化数据
医药知识图谱
多模态
语义
节点
文件生成系统
标签
孪生神经网络
流水线架构
动态纠错
序列
嵌套表格
识别置信度
图像
文本
CRF模型
视觉
编译规则