*敏*感*词*搜索引擎的发展背景及影响的SEO技术分析
优采云 发布时间: 2021-05-11 04:03*敏*感*词*搜索引擎的发展背景及影响的SEO技术分析
网络的出现和快速发展引起了信息检索环境的重大变化。基于Internet的搜索引擎的排名算法直接关系到新环境中信息检索的用户体验。现有的搜索引擎排名算法主要基于Web链接结构。两种主要的代表性算法是PageRank算法和Hits算法。基于这两种算法,*敏*感*词*许多学者和研究机构进行了新的探索。和改进。
在此基础上,已经形成了一些适合搜索引擎的成熟的综合排名模型。本文研究和分析了*敏*感*词*搜索引擎的发展背景,以及对搜索引擎排名有重要影响的SEO技术。在此基础上,对PageRank算法和Hits算法进行了深入的分析。
一、 PageRank
算法PageRank是最著名的搜索引擎Google采用的算法策略。它基于每个网页的超链接信息来计算网页的权重,以优化搜索引擎的结果。拉里·佩奇(Larry Page)提出。
简单地说,PageRank算法计算每个网页的综合得分,也就是说,如果网页A链接到网页B,则网页B当然会加1分。不同的链接网页具有指向网页的不同点。页面的分数是通过递归算法获得链接到该页面的所有页面的重要性的。
PageRank算法的基本原理推导如下:
PR(A)=(1-d)+ d *(PR(T 1) / C(T 1) + ... + PR(Tn)/ C(Tn))
其中PR(A)是指A页的PR值。
T1,T2,...,Tn是指页面A的链接页面。
PR(Ti)表示页面Ti(i = 1,2,...,n)的PR值。
C(Ti)表示来自网页Ti(i = 1,2,...,n)的链接数。
D是衰减因子,0
从上式可以看出,影响网页PR值的主要因素如下:
([1)指向此页面的链接数。
(2)链接到网页本身的网页的PR值。
([3)指向网页本身的链接数。
根据以上分析,可以判断:链接的数量越多,则这些链接的页面的PR值越高,这些页面的链接数越少,则PR值越高。该网页的内容。
Google为每个网页分配一个初始PR值(1-d),然后使用PageRank算法收敛以计算其PR值。
网页的输入和输出关系一直在变化,因此PR值也需要更新。可以通过定时任务反复计算后进行更新,以使网页的最终PR值达到平衡且稳定的状态。
Google的查询过程如下:首先,根据用户输入的查询关键词匹配Web数据库中的网页,然后根据他们自己的PR排名向用户展示匹配的网页。
此外,网页在搜索结果列表中的位置还与许多其他因素相关,例如搜索词在网页中的位置。
PageRank的缺点是它不考虑链接的值。这更适合于常规搜索引擎,但是对于与主题相关的垂直搜索引擎来说,这不是一个好的策略。
二、 HITS
PageRank算法对出站链接权重的贡献是平均的,也就是说,没有考虑不同链接的重要性,但是某些页面链接可能是广告,导航或注释链接,而平均权重显然不是符合实际情况。
HITS(超链接诱导主题搜索)算法是一种经典的主题信息提取策略,可以提高垂直精度。
1、原理
HITS算法是乔恩·克莱因伯格(Jon Kleinberg)提出的,它为每个网页计算两个值:权威性和中心性。
([1)权威页面
一个网页被多次引用,这可能非常重要;尽管一个网页没有被多次引用,但是它被重要的网页引用,但它也可能非常重要;将网页的重要性平均化后传递到它所引用的网页。这样的页面称为权威页面。
([2) Hub网页
一个网页,提供指向权威网页的链接的集合。它本身可能并不重要,或者指向它的网页很少,但是它提供了指向某个主题上最重要站点的链接的集合。这种网页称为集线器网页。
([3)算法思想
首先,使用常规搜索引擎来获取网页的初始子集I。当然,I中的页面与用户的查询条件非常相关。然后包括由I指向的网页和指向I的网页以形成基本集E。E中的每个页面都有权限权重和集线器权重,分别表示为a和h。 a值表示网页和查询条件相关性级别,h表示页面链接到相关性页面的数量。 a =(a1,a2,...,an)和h =(h1,h2,...,hn)表示E中所有网页的权限和中心向量。最初将ai和hi都设置为1,并且然后使用以下公式进行计算:
其中,B(i)和F(i)分别表示指向该网页的网页链接的集合和指向该网页的网页链接的集合。使用n * n矩阵A表示集合E的网页节点之间的连接。如果节点i和节点j之间存在连接,则A [i,j] = 1,然后A [i,j] = 0,因此,上式可以表示为:
迭代计算a和h直至收敛。这样,我们专注于ATA和AAT。最后,按权限和中心值排序,然后选择a和h的值大于阈值M的网页。
如果许多良好的枢纽指向一个网页,则其权限值将相应增加;如果某个网页指向许多优质的权威页面,则中心值也会相应增加。 HITS算法的最终输出是一组具有较大中心值的网页和具有较大权限值的网页。
2、缺陷
虽然HITS算法提高了一定的垂直精度,但它也具有以下缺点:
(1) HITS算法忽略网页内容的差异,并为每个链接的网页分配相同的加权常数,因为每个网页都会有一些无关的链接网页,例如广告链接。这些无关的网页和相关的“处理网页”同样容易导致主体漂移。
(2)在url集合E的开头,还将初始集合I中的某些网页的无关链接添加到E中,这增加了不必要的下载量,并导致更多无关的网页参与了计算,对准确性有一定影响。
3、改进
改进方向如下:
([1)主题漂移
([2)下载过滤器
以上是搜索引擎技术的排序算法。尽管该公式有点麻烦,但如果仔细研究,您会有所收获。谢谢您的阅读。