利用中介序列MSA与扩散掩码机制的肽序列生成模型及生成方法
申请号:CN202511454426
申请日期:2025-10-13
公开号:CN120932734A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及一种利用中介序列MSA与扩散掩码机制的肽序列生成模型及生成方法,具体为包含进化信息的肽序列AI模型训练方法。创新性引入中介序列,解决肽因序列过短而无法直接获取进化信息的问题。首先对肽数据集构建MSA,对于其中无法构建有效MSA的,将其序列与蛋白数据库进行比对,选取具有高同源性和适当长度的中介序列,随后构建中介序列的MSA数据,用于引导Al模型捕获进化特征。模型训练采用扩散语言掩码机制和MSA Transformer,在肽MSA中随机掩蔽全部区域,中介MSA中掩蔽肽映射区域,对肽进行嵌入建模和生成。该方法可捕获稀疏的肽进化信息,实现肽的语义建模与高效生成,适用于药物设计、蛋白工程等领域中的肽序列优化与合成。
技术关键词
序列
搜索工具
AI模型训练方法
掩码策略
编码结构
生成方法
编码器
数据
机制
多肽
字符
格式
蛋白
框架
模式
语义
冗余
药物