数据处理、自然语言处理、法律文档处理的方法及设备

申请号：CN202410853186

申请日期：2024-06-27

公开号：CN118966160A

公开日期：2024-11-15

类型：发明专利

摘要

本申请提供一种数据处理、自然语言处理、法律文档处理的方法及设备。本申请的数据处理方法，基于目标领域的领域数据生成备选词表；使用通用机器学习模型对领域数据进行前向推理，根据前向推理结果计算备选词表中各备选词的梯度，梯度体现了备选词对提升模型领域能力的关键程度；基于备选词的梯度筛选出对提升模型领域能力更关键的词来构建领域词表；相较于领域数据的全部分词，经筛选得到的领域词表是一个效果更好的子集，使用该领域词表扩展通用词表，可以更好地提升领域模型的性能；另外，本申请提供的方法，可以自动化地构建各垂直领域的领域词表，无需人工设计、不依赖于具有领域先验知识的专家，大大提升了领域词表的构建效率。

技术关键词

通用机器学习模型标记序列节点自然语言文本计算机执行指令字典树数据处理方法分词可读存储介质计算机程序产品处理器通信服务器标识存储器