基于节点权重相关性的钓鱼网页识别方法(组图)
优采云 发布时间: 2021-03-28 07:10基于节点权重相关性的钓鱼网页识别方法(组图)
[摘要]:随着网络和计算机的普及,网络安全问题也出现了。网页仿冒网页的识别是网络安全中的紧迫问题。目前,一般的网络钓鱼网页识别方法主要有四种:黑名单法,启发式法,图像识别法和机器学习法,每一种都有明显的缺陷。黑名单法,启发式法和图像识别法是网络钓鱼网页更新速度较快,特征无法更新,漏判率高的原因。机器学习方法通常是浅层学习,对于复杂的分类问题泛化能力较弱,因此误判率很高。通过研究发现,深度学习可以有效解决上述问题。在比较了各种深度学习模型框架之后,将自动编码器模型用作识别网络钓鱼网页的模型框架。它是一个简单的三层网络模型,分为编码层,隐藏层和解码层。在对特征进行编码和解码之后,可以获得更基本的表达。本文中的识别方法首先分析网页URL和网页源代码,然后将功能分为五类:URL文本功能,DNS功能,WHOIS功能,排名功能和页面内容功能。提取每个类别中的特征以形成52。维的特征向量用于填充缺失的特征。之后,将构造的特征向量用作自动编码器的输入。目前,在使用深度学习模型时,超参数的调整主要包括三种方法:手动方法,网格搜索和随机搜索。每种方法都有许多缺点。本文提出了一种基于节点权重相关性的自适应方法。隐藏层节点数优化算法通过引入相关系数理论自动调整隐藏层中的节点数,从而使当前层中的节点数最优。为了证明算法的正确性,本文使用三个数据集来分析性能的六种类型,即准确性,召回率,误报率,误报率,真实率和真实否定率,证明了算法的有效性。算法。 。之后,对具有最佳网络结构的自动编码器的分类结果进行集成学习,并对缺失值的样本特征采用改进的加权投票方法,进一步提高了结果的准确性。最后,将最优结构的自动编码器与传统的机器学习方法中的支持向量机算法和朴素贝叶斯算法进行了比较,结果证明了该自动编码器的有效性。之后,对输入特征向量进行了三种归一化改进,进一步提高了识别性能。