一种基于多模态大模型的发票识别方法、装置及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的发票识别方法、装置及设备
申请号:CN202510875797
申请日期:2025-06-26
公开号:CN120808377A
公开日期:2025-10-17
类型:发明专利
摘要
本申请涉及图像处理技术领域,提供一种基于多模态大模型的发票识别方法、装置及设备,本申请实施例提供的基于多模态大模型的发票识别方法,通过多模态大模型生成待处理发票图像的全局语义描述,以及,利用多模态大模型对待处理发票图像执行区域实例分割,输出每个票据对应的独立票据子图像,并根据全局语义描述和预设结构化模板构建多模态引导指令,然后将独立票据子图像及对应引导指令输入多模态大模型,获得发票信息结构化数据,发票信息结构化数据可直接满足预设要求。且通过光学字符识别模型提取的刚性文本特征,对发票信息结构化数据进行矫正,在保留多模态大模型全局推理优势的同时,进一步提高发票信息结构化数据的准确性。
技术关键词
发票识别方法 多模态 票据 字形特征 置信度阈值 文本 图像 发票识别装置 光学字符识别 实例分割 语义 数据 生成发票 矫正 大语言模型 指令 通信接口 关系