基于多语言模型微调的马来语-汉语语料抽取方法、系统
申请号:CN202510861143
申请日期:2025-06-25
公开号:CN120874820A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及基于多语言模型微调的马来语‑汉语语料抽取方法、系统,属于自然语言处理技术领域。本发明包括步骤:对马来语‑汉语语料进行预处理:对马来语‑汉语伪平行数据中的重复、格式有误以及乱码进行预处理;噪声分析:根据不同的噪声类型对应的特性采取相应的数据筛选策略以过滤噪声;基于跨语言句向量对齐度的语料质量量化,构建了适用于分类任务的正负例数据集;马来语‑汉语数据集的数据抽取:通过构建好的正负例数据集对LaBSE模型或基于Bert的XLM‑Roberta模型进行微调,使用微调后的模型对待处理数据进行马来语‑汉语语料抽取。本发明能筛选出高质量的数据,获得了质量较高的句对。
技术关键词
语料抽取方法
多语言
目标语言句子
字符串匹配算法
非暂态计算机可读存储介质
训练语言模型
处理器
抽取系统
计算机程序产品
样本
数据验证
策略
哈希表
标签
自然语言
工具包
无噪声
格式