一种用于涉诈网址识别训练的样本分类扩样方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种用于涉诈网址识别训练的样本分类扩样方法及系统
申请号:CN202410959165
申请日期:2024-07-17
公开号:CN118861897A
公开日期:2024-10-29
类型:发明专利
摘要
本发明公开了一种用于涉诈网址识别训练的样本分类扩样方法,包括:获取URL样本数据,并对URL样本数据进行字符拆分,以构建词嵌入矩阵;将词嵌入矩阵输入双向LSTM模型或CNN模型中进行训练,得到字符级向量表示;对URL样本数据采集基于域名的全局URL特征,并使用随机森林模型计算全局URL特征的重要性得到关键特征集;基于关键特征集,对双向LSTM模型或CNN模型进行训练,以更新字符级特征向量表示;将更新后的字符级特征向量表示输入神经网络的全连接层进行迭代训练,以对URL样本数据进行二分类。本发明通过提取字符级向量表示,并计算特征的重要性输出关键特征集,更新字符级向量表示,实现URL样本数据分类扩样,避免冗余特征影响识别结果,改善涉诈网址识别率。
技术关键词
URL特征 LSTM模型 字符 随机森林模型 样本 扩样方法 网址 矩阵 多层感知机 ReLU函数 梯度下降算法 非线性 数据采集单元 爬虫技术 冗余特征 计算机 处理器 传播算法 数据分类