一种招投标文件信息抽取方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种招投标文件信息抽取方法
申请号:CN202511535730
申请日期:2025-10-27
公开号:CN121031593A
公开日期:2025-11-28
类型:发明专利
摘要
本申请涉及文本处理领域,尤其涉及一种招投标文件信息抽取方法。包括:将招投标文件分割为页面,对页面识别得到对应的文本;对页面中的图像和表格生成补充性文本描述并追加到页面对应的文本的末尾,形成增强型文本块序列;根据预构建的层级化标签体系从文本块序列中匹配出标签,并根据标签和预构建的提示词模板库生成对应的提示词模板;将提示词模板、增强型文本块序列,以及上下文文本摘要作为组合输入大语言模型,得到带有层级关系的结构化抽取结果;将抽取出的实体内容与本地词典匹配,匹配通过后对结果进行聚合整理,输出结构化数据文件。在无需对模型进行重训练的前提下,降低生成内容的幻觉风险。
技术关键词
标签体系 大语言模型 信息抽取方法 页面 层级 实体 文本特征向量 图像特征向量 模板 卷积神经网络提取 摘要 序列 识别置信度 BERT模型 表格 词典 语义向量 关系