蛋白质语言模型预训练与蛋白质序列处理方法及相关产品
申请号:CN202510660218
申请日期:2025-05-22
公开号:CN120183502B
公开日期:2025-12-30
类型:发明专利
摘要
本公开提供一种蛋白质语言模型预训练与蛋白质序列处理方法及相关产品。该蛋白质语言模型预训练方法的一具体实施方式通过对样本蛋白质序列和样本蛋白质序列中的共进化对进行掩码处理,得到样本掩码标记序列;再基于蛋白质语言模型,对样本掩码标记序列进行嵌入表示和特征编码,得到编码特征序列;基于预设序列特征解码器,对编码特征序列进行解码,得到解码蛋白质序列;基于解码蛋白质序列与样本蛋白质序列和各共进化对之间的差异,对蛋白质语言模型进行优化。即,通过在预训练过程中对蛋白质序列中的共进化对进行掩码,可以优化蛋白质语言模型对蛋白质序列的理解和预测能力,以及提高基于蛋白质语言模型的下游蛋白质序列/结构相关任务的准确率。
技术关键词
编码特征
标记
注意力
样本
序列特征
模型预训练
掩码矩阵
解码器
处理器
计算机程序产品
解码模块
编码模块
存储装置
可读存储介质