摘要
本发明公开了一种用于涉诈网址识别训练的样本分类扩样方法,包括:获取URL样本数据,并对URL样本数据进行字符拆分,以构建词嵌入矩阵;将词嵌入矩阵输入双向LSTM模型或CNN模型中进行训练,得到字符级向量表示;对URL样本数据采集基于域名的全局URL特征,并使用随机森林模型计算全局URL特征的重要性得到关键特征集;基于关键特征集,对双向LSTM模型或CNN模型进行训练,以更新字符级特征向量表示;将更新后的字符级特征向量表示输入神经网络的全连接层进行迭代训练,以对URL样本数据进行二分类。本发明通过提取字符级向量表示,并计算特征的重要性输出关键特征集,更新字符级向量表示,实现URL样本数据分类扩样,避免冗余特征影响识别结果,改善涉诈网址识别率。