港口文本数据处理方法、装置、设备及介质

申请号：CN202510559809

申请日期：2025-04-30

公开号：CN120087366B

公开日期：2025-08-22

类型：发明专利

摘要

本申请提供一种港口文本数据处理方法、装置、设备及介质。在该方法中，通过根据港口数据项对应的替换字符串对第一大语言模型和第二大语言模型进行分词器和嵌入值修改处理，得到第三大语言模型和第四大语言模型。进而根据第三大语言模型和港口号码替换表，对原始港口训练数据进行数据项替换处理，得到目标港口训练数据后，对第四大语言模型进行训练，得到目标大语言模型。最后根据目标大语言模型和文本嵌入模型，对初始港口文本数据进行处理，得到目标向量。本方案通过使用训练得到的用于替换港口数据项的目标大语言模型，以及文本嵌入模型，对初始港口文本数据进行处理，得到目标向量，有效提高了目标向量与港口数据项的匹配性。

技术关键词

大语言模型文本数据处理方法数据项标记基准文本数据处理装置号码模型训练模块处理器补偿值通信接口可读存储介质存储器电子设备指令关系