摘要
本发明实施例涉及一种基于模型集群预测化合物类型的处理方法和装置,所述方法包括:构建模型集群框架、目标分子库;按类别独立的分子序列均衡采样规则构建第一支路数据集;构建第一支路训练框架并基于第一支路数据集进行训练;基于通用编码器、池化模块和目标分子库构建分子特征库;按类别独立的分子特征均衡采样规则构建第二支路数据集、并基于第二支路数据集对第二预测支路的各个二分类模型分别训练;设置两路权重参数;使用模型集群框架处理化合物分类任务。本发明可以降低人工成本、可以处理混合特征化合物的多类别预测、可以提高预测准确度和模型泛化性,有助于提高植物代谢物解析、合成生物学路径设计以及分子育种领域的科研工作效率。