摘要
本发明公开一种药靶互作预测模型的表征优化与软标签构建方法,包括以下步骤:(1)基于Molformer预训练模型构建分子表征空间,采用K‑Means聚类算法对负样本进行特征空间相似性分析,通过设定动态阈值剔除冗余样本,实现正负样本均衡化;(2)设计基于对数函数的软标签优化机制,将DAVIS数据集中pKd值转化为(0,1)区间连续分布的软标签,保留结合强度梯度信息以增强模型对弱结合化合物的敏感性;(3)集成上述数据增强策略,通过五折交叉验证法训练药靶互作预测模型,以提升模型预测性能。本发明验证了其在缓解数据偏置与信息损失问题上的显著优势,本方法也为深度学习的药物虚拟筛选提供了高鲁棒性数据处理框架。