摘要
本发明属于电子病历技术领域,具体公开了一种医学文本命名实体识别方法及系统,该方法采集原始医学文本并作为DLBC的输入,将预训练语言模型作为DLBC的嵌入层对原始医学文本分词处理,将文本转换为字符序列,再将字符序列送入预训练语言模型,生成对应的字符向量表示;使用语料库提取医学名词和类别,构建包含多类别医学名词的领域词典;使用多头注意力机制,得到特征序列;利用双向长短期记忆网络Bi LSTM,对特征序列进行特征提取,上下文信息建模;使用线性层将Bi LSTM的输出转换为每个字符对应的NER标签概率分布,应用联合解码策略CRF得到最终的识别结果。采用本技术方案,利用领域词典提供的外部信息,进行实体嵌入增强,提升医学实体识别准确率。