南昌网页搜索引擎优化(个性化网页权重的常见形式个性化PageRank模型(组图))

优采云 发布时间: 2022-01-20 19:11

  南昌网页搜索引擎优化(个性化网页权重的常见形式个性化PageRank模型(组图))

  个性化页面权重的一种常见形式是个性化 PageRank。除了使用传统的文本匹配技术外,现代搜索引擎还广泛使用网页权重对自然搜索引擎排名进行排序。Z 的一个著名例子是 Google 的 PageRank 技术。利用网页结构的链接关系,PageRank可以计算出每个网页的权重值,并对结果网页进行相应的排序。因此,如果使用用户的偏好信息来修改PageRank权重值的计算,则相应地生成表达特定用户个性化信息需求的搜索引擎排名结果。从效果上看,这种方法比PageRank更实用,因为毕竟用户不可能遍历所有得到的查询网页结果,因此用户更容易将与用户需求密切相关的网页放在搜索结果的前面。使用权。事实上,Page 等人已经提出了个性化 PageRank 的想法,但在本次研究中并未开展基于个性化网页权重的个性化搜索引擎模型。

  目前人们提出的个性化PageRank方法有很多,主要分为两类:一类是直接修改基于超链接关系得到的网页权重值;另一种是在传统的PageRank公式中加入修正参数,以反映用户的个性化需求。

  在原来的PageRank计算公式中,模型给每个网页的链接分配相同的概率值,所以这种方法给不同的链接和网页分配相同的权重,当前网页的权重值也会影响链接输出均等。网页,并且它还假设用户随机跳转到任何其他网页的概率是相同的。因此,这种计算方法主要依靠网页*敏*感*词*中的链接进行分析。但是,这些链接是由网站的网页设计师生成的,所以它只反映了设计师对网页中其他页面的理解。此外,这种方法忽略了另一个重要方面,即Web用户对Web页面的理解。也就是说,单纯用网页之间的超链接结构来表达网页权重值是不够的。一种比较简单易行的修改网页权重的方法是利用Web日志挖掘信息,获取用户对网页的理解,从而改进传统的PageRank计算方法。事实上,很直观的是,那些被访问频率较高的超链接应该比那些访问频率较低的超链接更重要,但大多数传统的超链接分析技术并没有区分这两者。

  结合信息的超链接分析技术由Zhu等人首先提出。他们将相关公式称为 PageRate。尽管他们还声称他们的算法是 PageRank 的扩展,但实际上,该算法不具备 PageRank 的任何属性。该算法不区分所有入站链路,不考虑高频接入和低频接入的区别。同时,他们没有给出实验结论,也没有讨论可能存在的问题,设计的公式还是有问题的。

  研究的其他一些方面也涉及信息分析的使用。例如,使用强化学习的方法对搜索结果进行重新排序和过滤,对于查询结果中的每个 URL,系统都会记录不同用户的点击。在后续的查询中,上述信息可以有效的增加高频访问的URL权重,类似的降低低频访问的URL权重的方法也在一些商业搜索引擎中使用。引擎通过上述方法实现了一种隐式的相关性反馈机制,主要利用用户点击产生的使用量进行结果页面的合并、页面重排等操作。用户使用信息也用于基于模式的应用程序,

  更好的方法是将挖掘web日志中的信息与传统的PageRank公式相结合,得到一个新的网页权重计算公式,即结合挖掘PageRank,如特征敏感的PageRank(usage-aware PageRank,UPR) . 它结合了静态链接结构分析和用户使用分析两种技术:一方面仍然强调传统网页之间的超链接关系;用户不经常访问的用户访问,利用它来提高传统方法中超链接产生的网页权重值。在UPR方法中,甚至可以通过调整参数设置来控制静态链接结构分析技术和Web使用挖掘技术的效果。如果参数设置为 0,该公式等价于传统的PageRank公式。如果参数设置为1,则重点转移到挖掘分析算法的使用上,两者之间有一个平衡,所以这种方法比传统方法更通用。从效率的角度来看,这种算法也有优势。它只需要经过一个额外的预处理步骤,其他迭代处理与传统方法没有区别。

  然而,这种新方法也有不足之处。虽然网站管理员可以得到自己站点用户的访问信息并应用到UPR分析中,但这些信息显然并不收录所有必要的信息,例如管理员不可能获取到不属于自己的链接到自己的网站访问。页面使用情况。虽然爬虫程序可以遍历这些网页的超链接结构,但是除了用户访问本地网页是使用哪些网页的使用信息*敏*感*词*很小,首先要安装客户端应用,并且必须设置同意披露这些私人 Web 访问信息。需要注意的是,谷歌搜索工具栏等软件默认尊重用户的个人隐私,除非用户允许,否则不会主动采集任何用户访问信息。当然,还有一些其他的客户端应用程序。该计划似乎不遵守上述原则。谷歌搜索工具栏等客户端应用,虽然可以采集用户使用信息,而且这些信息确实是基于全网的,但是这里涉及的用户范围很小,首先要安装客户端应用,并且必须设置同意披露这些私人 Web 访问信息。需要注意的是,谷歌搜索工具栏等软件默认尊重用户的个人隐私,除非用户允许,否则不会主动采集任何用户访问信息。当然,还有一些其他的客户端应用程序。该计划似乎不遵守上述原则。谷歌搜索工具栏等客户端应用,虽然可以采集用户使用信息,而且这些信息确实是基于全网的,但是这里涉及的用户范围很小,首先要安装客户端应用,并且必须设置同意披露这些私人 Web 访问信息。需要注意的是,谷歌搜索工具栏等软件默认尊重用户的个人隐私,除非用户允许,否则不会主动采集任何用户访问信息。当然,还有一些其他的客户端应用程序。该计划似乎不遵守上述原则。他们首先必须安装客户端应用程序,并且必须设置同意公开这些私人 Web 访问信息。需要注意的是,谷歌搜索工具栏等软件默认尊重用户的个人隐私,除非用户允许,否则不会主动采集任何用户访问信息。当然,还有一些其他的客户端应用程序。该计划似乎不遵守上述原则。他们首先必须安装客户端应用程序,并且必须设置同意公开这些私人 Web 访问信息。需要注意的是,谷歌搜索工具栏等软件默认尊重用户的个人隐私,除非用户允许,否则不会主动采集任何用户访问信息。当然,还有一些其他的客户端应用程序。该计划似乎不遵守上述原则。

  因此,这种PageRankZ挖掘的组合使用适用于网站的内部网络搜索。搜索引擎的工作原理是先获取网站的结构信息,结合用户使用信息,得到传统PageRank方法的扩展。模型。实验结果也可以证明,该算法可以更有效地提高访问频率高的页面的权重值,相应地降低访问频率低的页面的权重值。

  随着搜索引擎技术的逐渐成熟,越来越多的搜索引擎优化工作者,很难从搜索引擎的外观来研究SEO。过去一年,谷歌、百度等搜索引擎不断调整链接分析技术,加深SEO门槛。SEOER 也必须随着搜索引擎的发展而发展。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线