基于改进神经网络的海量网页挂码信息自动采集方法
优采云 发布时间: 2021-04-30 02:36基于改进神经网络的海量网页挂码信息自动采集方法
第34卷,第4期,计算机仿真,2017年4月文章编号:1006-9348(201 7) 04-0280-04海量网页链接代码信息自动采集方法模拟张世宏(西北计算机师范大学科学与工程学院,甘肃兰州73007 0)摘要:为了更好地确保网络信息的安全性和稳定性,有必要对*敏*感*词*网页标记的自动采集方法进行研究。信息,但是当前的方法用于网页标记信息自动采集当k15]时,无法构造网页标记信息的高维特征空间,并且存在网页标记信息自动准确性低的问题。 采集。因此,一种改进的基于神经网络的海量网页标记信息自动方法采集,上述方法首先使用神经网络对海量网页代码信息样本进行标准化,获得模糊隶属函数。信息特征的确定,使用梯度优化方法进行网络训练,将最小二乘支持向量机参数编码定义为蝙蝠个体,并以海量网页标记信息自动采集的有效性作为参数目标优化功能,从而获得最优参数通过模拟蝙蝠的飞行过程搜索最小二乘支持向量机,并以此为基础完成海量网页的自动标注信息。仿真证明所提出的方法信息的准确性较高。为保证网络信息的安全性和稳定性提供了可行的依据。 关键词:海量网页;链接代码信息;自动采集中文图书馆分类号:TP391文件标识码:B大码挂码信息获取方法模拟自动张世宏(西北师范大学计算机科学与工程学院,甘肃兰州730070,中国)摘要:本文提出了一种基于改进神经网络的网页海量悬挂代码信息自动采集方法。首先,利用神经网络对海量悬挂节点信息的样本和模糊隶属函数进行标准化。获得了信息特征。然后,使用梯度优化方法来训练网络。将最小二乘支持向量机(SVM)的参数编码定义为蝙蝠个体,并将自动采集的有效性用作参数的目标优化功能。模拟蝙蝠的光过程,求出最小二乘支持向量机的最优参数。据此,自动采集完成。仿真表明,该方法具有较高的采集精度。它可以提供可行的依据或确保网络信息的安全性和稳定性。 KEYW ORDS:庞大的网页;吊码信息;自动采集1简介在中国,随着网络数据数量的增加,网络安全问题变得越来越突出,给人们的工作和生活带来了巨大的隐患。
]。更典型的网站安全问题包括网页内容篡改,注入攻击,网页标记等。网页标记直接影响网站服务并干扰公司实体的形象。网页标记事件具有网络环境复杂,职责难以追踪,预检查和实时预防困难,简单的攻击工具以及智能化趋势的特点。尽管目前有入侵检测,防火墙和其他安全防护方法,但是网页标记事件与其他攻击方法明显不同,因此不被接受。日期:2017-01-O9 。 。 — — 280。 。 -容易发现,容易突破入侵检测系统,容易突破防火墙。在这种情况下,如何有效地自动化海量网页编码信息采集已成为该领域迫切需要解决的主要问题,海量网页编码信息自动采集的优化方法通过模拟飞行来搜索至少两个。蝙蝠的过程。乘以支持向量机的最优参数以完成大量网页信息的自动注册采集是解决上述问题的基本方法。它引起了许多专家学者的关注,并且也取得了许多良好的成果。 。文献[8]提出了一种基于Radon变换的自动采集方法,用于*敏*感*词*网页标记信息。该方法在时频空间中构造网页的标签信息的协方差矩阵,并计算标签信息的边缘积分特征采集,并以此为基础来完成海量网页的自动标签信息采集。该方法信息采集具有较高的效率,但存在方法局限性大的问题。
参考文献[9]讨论了一种基于主成分分析的用于*敏*感*词*网页标记信息的自动采集方法。该方法首先提取海量网页的信息特征,计算不同信息特征的主要成分,然后根据计算结果完成海量网页的自动注册采集。该方法信息采集的时间复杂度相对较低,但是当当前方法用于自动网页编码信息采集时,不可能构造大量网页编码信息的高维特征空间,并且有自动网页编码信息采集准确性低的问题。文献[10]集中于基于蜂群算法的自动方法采集。该方法首先选择自动网页编码信息采集控制机制,并给出网页编码信息采集的阈值,并使用该阈值来完成大量网页的自动编码信息采集。该方法具有很高的信息采集精度,但是存在信息采集的处理麻烦且耗时的问题。针对上述问题,提出了一种基于改进的神经网络的自动标记海量网页信息的方法采集。仿真表明,所提出的方法信息采集的准确性较高,可为保证网络信息的安全性和稳定性提供可行的依据。 2自动采集标记海量网页信息的原理在自动标记海量信息采集的过程中,海量网页标记信息之间的协方差矩阵是在时频空间中构造的,以提取海量网页的特征。大量的网页标记信息。进行海量网页标记信息的边缘特征分解,形成信息特征的奇异值分解微分方程,累加各个海量网页标记信息特征的边缘积分,完成海量网页的自动标记信息。 采集。
具体步骤如下:假设S代表网页代码信息的最大时移,鼭代表网页代码信息的调频,m和n分别代表任意两个代码信息的特征边缘参数,E表示网页代码信息的时频平面空间,然后使用公式(1)构造大量网页代码信息Wfgp =毒物gh p×P,dj㈩+ [l的协方差矩阵,其中e代表网格-like网页代码信息的时频空间,p表示拉登变换基函数,假设(t)表示Radon基函数的协方差对偶函数,{,}表示频域边及其旋转积分向量,并且肘形网格代表信息特征边缘的整体权重,然后使用公式(2)提取大量网页标记信息特征,例如=×[咖啡](2)乐一{, }十。日文咖啡样式代表所有网页代码信息功能边缘的最大权重,6 bar表示每个标签信息功能的频率密度。假定T(n)表示信息特征的时域联合空间,这意味着任何两个网页标签信息特征都在时域中。联合空间中的相互约束关系,p洳表示由信息特征量组成的多个特征向量的集合,然后使用公式(3)对海量网页编码信息E“ h =进行边缘特征分解。 T,mp dry”(3)帅(n)×2',公式中f表示信息特征的线性积分变换,e”表示Radon变换的几何关系,并表示各自的功率谱。网页代码信息功能。
假设Gr Ka代表海量网页标记信息的特征值的残差参数,代表特征值的变量,‰代表特征的方差,则使用公式(4)累积边积分大量网页标记信息的特征量的乘积=×(x)在公式中,P vz代表每个信息特征的维数,z代表信息特征的负荷矩阵。信息功能,然后使用公式(5)完成大型网页的链接。代码信息自动采集:复习(5)总之,可以解释为大型网页自动采集的原理编码信息,并使用此原理完成海量网页编码信息的自动采集 3基于改进的神经网络的自动标记信息采集 3.1海量网页p的标准化年龄标记信息样本在自动采集大量网页标记信息的过程中,它与神经网络理论集成在一起,以调整神经网络中每个神经元的权重。标准化大量网页代码信息特征样本的变化状态,获得信息特征的模糊隶属度函数,计算隐藏层中每个神经元的输入和输出,对网络连接的值进行二进制编码,并使用隐藏层。每个神经元的输出用于校正连接权重并计算全局误差,以便网络的输出始终接近预期的输出。具体步骤如下:假设输入层中的神经元数量为n,隐藏层中的神经元数量为number,输出层中神经元的数量为q“,= 1, 2,...,m”表示代码信息的样本数据的数量,代表输入矢量,并且满足=(,, ...,)的条件。表示隐藏层输入向量,它满足hi =(。
,^:.... hi),wih代表输入层和中间层之间的连接权重,wi o代表隐藏层和输出层之间的连接权重,b代表每个神经元的阈值在隐藏层中,然后使用公式(6)调整神经网络中每个神经元的连接权重的变化状态R =。Etc.××(6)其中,代表激活函数,P代表阈值输出层中的每个神经元代表最大的迭代次数。假设{O,O:…。O}代表“网页标记信息特征的样本,然后使用公式(7)标准化大量标记网页特征信息样本,得到信息特征的模糊隶属函数『±R(7)在公式中,代表k个样本的第一指标的平均值,s代表标准化指标。假设脚代表误差函数, nd D表示一个间隔(1,一个[k23中的随机数],(k)表示第k个信息特征样本的随机选择,(k)表示其相应的预期输出,然后使用公式(8)计算隐藏层中每个神经元的输入和输出端口()= ram×d坼(8) ...-281 ..-在公式中,a表示给定的计算精度。假设s表示从隐藏层到输出层的连接权重,则使用公式(9)对网络连接的值进行二进制编码=×(9)在公式中,%表示输出层数P代表隐藏层的输出误差,并代表允许误差的最大范围。
假定6(k)代表误差函数对隐含层中每个神经元的偏导数,而09代表隐含层节点的宽度。隐藏层中每个神经元的输出用于修改连接权重,使用公式(1 0)表示O s =∞A×6(k)-Tq〜d fp×A zhen×X蛔(1 [ [公式] 0)在公式中,split表示第i个隐藏节点的中心,A,dyl分别表示隐藏节点的输出权重。假定Y(t)表示网络的实际输出,而Y“(t )代表网络的预期输出,使用公式(1 1):O(…)hiss×…劬...计算总误差。总而言之,可以解释为在自动采集过程中海量网页标记信息,首先使用神经网络对海量网页标记信息样本进行标准化,以获得信息特征的模糊隶属函数,并使用梯度。网络训练的优化方法为海量网页的自动注册奠定了基础。网页信息采集。3.2基于网页信息的自动注册关于最佳参数个体采集大量网页信息的自动注册采集在此过程中,基于在3.1节中获得的神经网络的实际输出与预期输出之间的全局误差,给出了悬挂代码信息的三维特征空间,并将最小二乘支持向量机参数编码定义为蝙蝠个体,并以海量网页标记信息的自动采集有效性为参数目标优化函数,进行搜索通过模拟蝙蝠的飞行过程来确定最小二乘支持向量机的最佳参数,并以此为基础来完成大型网页的自动采集标记信息。 k15]。
具体步骤如下:假设,用训练样本数表示,b表示偏差矢量,b表示权重矢量()表示高维中最小二乘的线性函数特征空间,然后在3.1节中获得。基于神经网络的实际输出和预期输出之间的全局误差y,使用公式给出悬挂代码信息的高维特征空间的线性函数(1 2)表示K,例如= dry×'(1 2),其中,n表示拉格朗日乘数。假设蝙蝠以某个位置的速度随机飞行,而i表示蝙蝠的频率。最小二乘支持向量机的参数编码定义为单个蝙蝠,并且自动使用公式(1 3)表示E =×A- TD(1 3 I Jsdk1)为一。 ^ s由\定义,其中A代表可变波长,D代表蝙蝠人与目标的接近度。假设Y代表单个蝙蝠的数量,并且代表每个蝙蝠的声音————————数量,r是脉冲频率,并且通过模拟蝙蝠的飞行过程找到最小二乘支持。向量机的参数,使用公式(1 4)表示状态:×,例如×E”(1 4) kaf— D〜但是\ ./'g公式(1的计算结果4)据此,它可以有效地完成海量网页标记信息的自动采集。
4仿真证明为了证明所提出的基于改进神经网络的自动采集方法对大量网页标记信息的有效性,需要进行实验。在Linux2.6系统上构建大量的网页代码信息自动采集仿真平台。在实验中,给定的网页文件根据发送http请求进行了1000次编码,并且每次操作写入了1.5k数据。 4.1使用本文提出的改进的神经网络方法和文献[9]提出的主成分分析方法对不同方法采集进行信息标记的有效性和可靠性进行比较,以进行大量的网页标记信息自动实验采集,比较两种不同方法的代码信息的有效性和可靠性采集,比较结果如图1和图2所示。90 Bao 0 Pu 50 30 Ying 10 0图1不同样本信息有效性的实验样本方法采集图2不同方法的信息采集可以从图1、和图2进行分析和解释。改进的神经网络方法采集网页标记信息的有效性和可靠性比采集更好。文献[9]中基于主成分分析方法采集的网页标记信息的有效性和可靠性,主要是因为使用im时本文提出的经过证明的神经网络方法可以自动处理大量网页标记信息采集,该方法与神经网络理论相集成,可以调整神经网络中每个神经元的连接权重的变化状态,并进行特征量抽样。大量的网页标记信息。标准化,获取信息特征的模糊隶属函数,计算隐藏层中每个神经元的输入和输出,对网络连接的值执行二进制编码,使用隐藏层中每个神经元的输出来校正连接权重并计算全局误差,从而使网络的输出不断逼近预期的输出,从而提高了本文方法采集网页标记信息的可靠性和有效性。
4.2不同方法信息的假阴性率和假阳性率的比较采集本文提出的方法基于改进的神经网络,文献[9]提出的方法基于主成分分析方法自动执行大量的网页标记信息。 采集比较大型自动网页标记信息自动采集的两种不同方法的误报率和误报率的实验。比较结果如图3和图4所示。90 70零旃50*敏*感*词*30 10 0实验样本,%图3不同方法信息的误报率比较采集图4不同方法信息的误报率比较方法信息采集可以使用本文的方法从图3和图4中进行说明。大量网页编码信息的自动采集的误报率和误报率远低于文献采集。 9]自动海量网页编码信息的方法采集。这主要是因为在使用本文提出的改进的神经网络自动采集大量网页代码信息时,通过模拟蝙蝠的飞行过程来搜索最小二乘支持。