搜索引擎主题模型优化(基于Web结构挖掘的搜索引擎作弊检测方法(2004)1003)
优采云 发布时间: 2021-08-28 12:10搜索引擎主题模型优化(基于Web结构挖掘的搜索引擎作弊检测方法(2004)1003)
计算机应用第 10 卷。 2004 文章 ID:1001 9081(2004) 10 03 基于Web结构挖掘的搜索引擎作弊检测方法,暨南大学计算机科学系,广州510632,广东暨南大学网络中心,广东广州510632)(ranli@ ):搜索引擎作弊在搜索引擎优化中还在不断进化,但对互联网的发展有负面影响,通过构建站内外流线型模型来判断几种作弊类型行为,得到PageRank修改算法中惩罚因子的公式和三个特征,期待搜索引擎作弊检测方法的发展前景关键词:Web结构挖掘;搜索引擎作弊;简化模型PageRank 中文地图分类号 TP39 3.07 文档识别码 Detectionmethod searchengine spa Webstructure挖掘 RAN Li,HEYi2zhou,XULong2fei ComputerScience,Jinan Un广州大学广东510632,中国.网络中心,暨南大学广州510632,中国) 摘要:搜索引擎垃圾邮件抵消结果搜索引擎垃圾邮件施加但减少了负面影响网站判断某些类型的搜索引擎垃圾邮件惩罚倍数规则公式特征三功能证明算法pagerank进行了描述。未来展望 检测方法 搜索引擎垃圾邮件呈现。关键词:网络结构挖掘;搜索引擎垃圾邮件;减少模型;pagerank 一起,连接起来,让网络用在全世界,财富,家庭共享。
一方面,各种开放资源的管理者希望更多的用户能够分享他们提供的信息和服务,以获得更大的商机。一方面,用户希望节省时间和精力来找到他们真正需要的资源。 ,于是搜索引擎应运而生。如今,搜索引擎已成为继电子邮件之后使用最广泛的网络工具。在搜索引擎中的排名,意味着每个网站的商机和实力对比,也意味着网络用户获取资源的准确性和效率。因此,搜索引擎排名对网站开放,尤其是电子商务网站显得尤为重要,不仅包括计算机技术,还涉及网络营销、网站推广等商业因素。搜索引擎优化使得每个网站更加注重自身网页质量和结构的优化,从而带来了网络整体质量的提升。同时,以“优化”为名出现的各种作弊方式,影响了搜索引擎的排名顺序,给网络用户带来了不便。基于网页结构挖掘的搜索引擎作弊检测方法是解决上述问题的方法。一个搜索引擎作弊。搜索引擎作弊是指采用一些特殊的、与常规的网页设计技术相悖的行为来提高网站排名。 虽然“作弊”和“优化”的目的都是为了获得最好的排名,但不同之处在于:优化关键词使用适当的内容相关密度,优化网站结构、页面因素和外链,方便用户使用;而作弊使用非常规的方法,结果是降低了网页质量,破坏了网页结构。
目前搜索引擎谷歌将作弊优化技术划分为Web结构挖掘。网页结构挖掘是指网页内部、网页和网站乊之间的URL字符串的树状结构。推导超链接结构中字母和知识的目的是研究网络的超链接结构、网页分类和摘要信息(如网页之间的相似性和联系等)。其常见应用包括谷歌排名中的PageRank算法、主题提取的HITS算法和在线社区中的网页结构挖掘算法,忽略网页内容。收稿日期:2004年06月;修订日期:2004 03 基金项目:广东省科技计划项目(2003C101037);广东省自然科学基金重点项目(010421)) 作者简介:冉冬(1978,四川绵阳,硕士生,主要研究方向:数据挖掘与知识工程,河北石家庄人,硕士研究方向:计算机网络,广东广州,教授,主要研究方向:数据挖掘与知识工程。:基于Web结构挖掘的搜索引擎作弊检测方法159 专注于网络中的链结构,它仍然是一个巨大的有数亿个节点和数十亿条边的有向图,一个网络*敏*感*词*的节点不仅可以是网页,还可以是网站,甚至是话题相关的网站类等,基于研究需要抽象程度取决于两者的结合。 基于Web结构挖掘的排名欺诈检测技术就是根据模型推导出的阈值,根据一个网站的内部或外部Web结构判断网站是否存在搜索引擎作弊,然后根据作弊程度对每个的PageRank施加惩罚因子网站中的页面,使企图使用作弊提高排名或网站的页面未能达到预期效果而受到惩罚。
具体实现步骤见搜索引擎作弊的网页结构分析。搜索引擎作弊最常用的方法是增加导入链接的数量。 PageRank算法确定的排名不仅需要导入链接的数量,更重要的是。*敏*感*词*链接的质量。一个带有页面页面的网站最多可以在没有重复链接的情况下建立搜索引擎作弊。一是在目标页面建立多个不必要的链接,以提高页面的PageRank,同时不希望用户“视作工厂”是指由大量交叉链接组成的网络系统的网页。系统中的站点以“互惠”的方式相互提供链接,通常忽略主题相关性。如果原创 PageRank 算法中存在指向网页的链接,则视为投票。在链接工作中,由于链接的交换,在以站点为节点的组合中必然存在大量的环路。除了顶点和末端之外,循环不再具有相同的位置。循环可以理解为站点已经为自己投票。循环时,将视为重复投票,应予适当处罚。同时,互联网的目的是共享资源,因此合理利用链接形成循环链接是必然的。如何在不影响合理优化的情况下有效惩罚作弊行为积极性是衡量惩罚因素好坏的尺度。首先,要建立站外流线型模型,确定站外链接网站迚入该类别所形成的合理循环数。
高度相关的外部精简模型的基础。它是以站点为中心的主题相关类别的真正子集。如果任意两个站点相互链接,可以通过排列组合的方法得到某个OLink,即源自该站的环路链路数,如果站外环路链路超过OLink的混沌链路,则隐藏链接的方法经常被用来达到目的。这种隐藏的OLink链接结构是为了躲避用户的肉眼而设计的,但也很难逃过软件工具的检查。例如,搜索程序蜘蛛可以一目了然地识别这种结构。这里介绍一个网站的简化模型,用来衡量网站中存在的冗余链接的数量: 建立网站页面的层次结构,形成一个树高作为每个节点的节点名称和高度节点。 ,节点的子节点数存储在双数ni中,即网页上方的属性分别用ni chs表示。 Linki 表示,该网站的简化模型认为,网站中只需要以下三种类型的链接。每个节点都有一个到它自己的子节点的链接。每个节点都有到它自己的兄弟节点的链接。 ILink,如果站点内链接数超过重复链接分析,重复链接是否存在于站内或站外,通常表现为隐藏链接,以及在论坛上发布重复链接等作弊行为的影响PageRank 算法。 网站 整体来看,如果站点存在冗余链接,或者站点加入了链接工厂,或者存在重复链接,那么站点中的所有页面都应该受到惩罚。 PageRank 值将乘以惩罚因子以削弱虚假链接。对 PR 值的积极影响和相应的惩罚。
PR′( 原PageRank惩罚因子 下面是公式得到的惩罚因子ILink,即网站站点的精简模型得到的链接数表示所拥有的网页数网站是一个函数,对于变量ILinkILink认为存在冗余链接,站*敏*感*词*太大,还有它对应的图形不是简单的树而是网,也是相关的 说到话题相关问题和话题相关类别的大小,首先要考虑网站相互关联的相关性问题。所有网站迚行的概念都是分层为网站类别,树中的每个节点代表一个主题类别,离根节点越近的节点代表主题类别范围越大,然后逐层细分,直到分成一定大小主题类别,互联网上每一个网站都可以在这个网站类别树中找到该节点的类别,这个节点的子节点再也找不到适合这个网站的主题相关类别@。 网站之间相关性的计算方法可以借鉴《知网》中词相似度的计算方法 需要强调的是160计算机应用2004是基于网站分类树的,不是最短距离的相关性“知网”中网站classification 树上的语义分类树Sj。以下是转换关系表达式 第一种形式表示网站Si通过集合Δ站形成的回路链接的相关性,其中Sk中相邻的网站计算如下,但具体形式需要根据在站内各搜索引擎的冗余链接上,对站外循环链接和重复链接三种搜索引擎作弊行为的处罚形式并不相同。
在确定这三个函数时,根据以下原则,这三个函数应在其取值范围内,且函数取值必须大于或等于搜索引擎作弊行为、站内冗余链接、外部循环链接网站、重复链接三种作弊行为的严重程度依次增加。 OLink是通过公式计算出来的,即链接数函数来源于网站异地精简模型。由于互联网无止境,本文介绍的方法是基于对Web结构的分析。由搜索引擎的作弊行为来判断,但只能用于区分和计算有限的作弊行为类型。此外,作弊形式存在重复关键词、误导关键词、日志欺诈等多种形式,因此应结合Web内容挖掘、Web结构挖掘、Web行为挖掘,综合对搜索引擎的惩罚因素作弊检测方。因此该公式只考虑了三种搜索引擎的发展和网站内冗余链接、站外循环链接、重复链接的Web挖掘[北京:高等教育外链结构挖掘[J Computer Engineering, 2003 39(2)] 9):28机械工业出版社,2001.软件学报,2003,14(10):1768 Computa2tional Linguistics Chinese Language Processing 76.(157日) 分析一致,回溯时间CIPM的长度比提出的CIPM要长。可以改进方案。目前所有的IP回溯方案都是通过寻找攻击路径来追溯攻击源。
CIPM 没有遵循这样的思路:它首先确定攻击源所在的网络,然后在该网络中识别攻击源 TracingNetwork Attacks IEEEInternet Computing March, April 2002 不同 IP 回溯方法 EB/OL luth。 se/csee/csn/publications/ip-trace2 返回。 pdf ,2004. ICMPTraceback 消息。 Inter2 net 草案,工作进展,OCT[ EB/ OL www,ietf org/inter2 net frafts/fraft 01.test ,2001. etal Practicalnetwork sup2 port iptraceback[ 2000ACM SIGCOMM Con2 ference[ SNOERENAC etal PacketIPA Trace TRANSACTIONS NETWORKING, 2002, 10 通过自适应随机数据包标记实现实时 IP 回溯 [J Journal of Software, 2003, 14 (05):1005