基于双重语义对齐的中英双语中草药和靶点实体识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于双重语义对齐的中英双语中草药和靶点实体识别方法
申请号:CN202411446139
申请日期:2024-10-16
公开号:CN119294397A
公开日期:2025-01-10
类型:发明专利
摘要
本发明提供了一种基于双重语义对齐的中英双语中草药和靶点实体识别方法,包括设置中英文两种语言的实体对照语料库;利用编码器mBERT模型计算多语言对齐所需的损失函数;计算专业语义对齐所需的损失函数;计算正则化项;计算损失函数的总和并训练mBERT模型;在保持步骤五中训练后mBERT模型的部分参数不变的情况下,同时训练编码器mBERT模型和解码器CRF。本发明通过双重语义对齐技术,改进了传统实体识别方法,包括多语言对齐和专业语义对齐,以及部分微调策略,提高了跨语言文本中实体识别的准确性和鲁棒性,通过在基准数据集上的验证,证明了其相较于现有技术在性能上的显著提升。
技术关键词
实体识别方法 中草药 语义 编码器 多语言 计算机可读取存储介质 中英文对照 专业 解码器 对齐技术 词典 定义 处理器通信 模块 参数 识别装置 同义词 鲁棒性