摘要
本发明涉及人工智能辅助药物发现领域,具体涉及一种基于蛋白质大语言模型的分子生成及优化方法,其方法包括:获取靶标蛋白质口袋的氨基酸序列信息和三维结构信息;利用基于蛋白质大语言模型构建的蛋白质编码器,对所述蛋白质口袋的氨基酸序列进行编码,得到蛋白质口袋特征向量;利用上下文编码器模块,根据预设的分子生成模式(从头生成或基于种子化合物的优化),编码上下文信息以获取潜向量;将所述蛋白质口袋特征向量与所述潜向量进行融合。本发明通过利用蛋白质大语言模型实现对蛋白质口袋的精确表征,并通过支持两种生成模式的统一框架,开发了“生成‑筛选‑优化”的迭代式药物设计策略,提高了生成分子的靶向特异性及药物设计的整体效率。