基于多语言模型微调的马来语-汉语语料抽取方法、系统

申请号：CN202510861143

申请日期：2025-06-25

公开号：CN120874820A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及基于多语言模型微调的马来语‑汉语语料抽取方法、系统，属于自然语言处理技术领域。本发明包括步骤：对马来语‑汉语语料进行预处理：对马来语‑汉语伪平行数据中的重复、格式有误以及乱码进行预处理；噪声分析：根据不同的噪声类型对应的特性采取相应的数据筛选策略以过滤噪声；基于跨语言句向量对齐度的语料质量量化，构建了适用于分类任务的正负例数据集；马来语‑汉语数据集的数据抽取：通过构建好的正负例数据集对LaBSE模型或基于Bert的XLM‑Roberta模型进行微调，使用微调后的模型对待处理数据进行马来语‑汉语语料抽取。本发明能筛选出高质量的数据，获得了质量较高的句对。

技术关键词

语料抽取方法多语言目标语言句子字符串匹配算法非暂态计算机可读存储介质训练语言模型处理器抽取系统计算机程序产品样本数据验证策略哈希表标签自然语言工具包无噪声格式

系统为您推荐了相关专利信息

一种基于数据标准的数据关系网生成方法和系统

数据生成方法关系符号非暂态计算机可读存储介质

网络事件调度方法、装置、电子设备及存储介质

事件调度方法抢修路径网络告警信息故障告警信息排序模型

一种基于交叉熵算法的混合型潮流计算方法及装置

交叉熵算法潮流计算方法样本高斯混合模型梯度算法

一种基于燃气发电的天然气用量预测模型及方法

天然气负荷历史数据燃气水电站发电量

网络空间防御方法、装置、设备、存储介质及程序产品

神经网络模型图谱策略网络节点非暂态计算机可读存储介质