一种用于涉诈网址识别训练的样本分类扩样方法及系统

申请号：CN202410959165

申请日期：2024-07-17

公开号：CN118861897A

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种用于涉诈网址识别训练的样本分类扩样方法，包括：获取URL样本数据，并对URL样本数据进行字符拆分，以构建词嵌入矩阵；将词嵌入矩阵输入双向LSTM模型或CNN模型中进行训练，得到字符级向量表示；对URL样本数据采集基于域名的全局URL特征，并使用随机森林模型计算全局URL特征的重要性得到关键特征集；基于关键特征集，对双向LSTM模型或CNN模型进行训练，以更新字符级特征向量表示；将更新后的字符级特征向量表示输入神经网络的全连接层进行迭代训练，以对URL样本数据进行二分类。本发明通过提取字符级向量表示，并计算特征的重要性输出关键特征集，更新字符级向量表示，实现URL样本数据分类扩样，避免冗余特征影响识别结果，改善涉诈网址识别率。

技术关键词

URL特征 LSTM模型字符随机森林模型样本扩样方法网址矩阵多层感知机 ReLU函数梯度下降算法非线性数据采集单元爬虫技术冗余特征计算机处理器传播算法数据分类