搜索引擎优化创始人(关于李彦宏超链分析专利的一些常识,你知道吗?)
优采云 发布时间: 2021-10-25 05:03搜索引擎优化创始人(关于李彦宏超链分析专利的一些常识,你知道吗?)
我第一次知道李彦宏的超链接分析专利是在洪博的博客上看到的一篇文章:文章:超链分析和PageRank的专利问题,也是第一次知道百度总裁李彦宏已经申请了并获得超链接分析专利。, 这个专利申请文件可以在美国专利局网站看到。李彦宏的专利申请是在谷歌申请自己的PageRank专利之前。
由于这两项专利都与研究网页相关联,而且这两项专利的发明者是两大搜索引擎的创始人,所以很多人并不清楚这两项技术专利的区别。甚至有人觉得这两项专利有相似之处或涉嫌抄袭,涉及到两家公司的核心利益。我仔细阅读了这两个专利的原文,谈谈我的看法。
我的理解是,这两个专利是完全不同的。要解决的问题和实现方法不同,但研究对象相同,都是页面链接。
超链接分析要解决的是文件和搜索关键词之间的相关性。李彦宏提出的方法是除了文件本身必须使用的关键词之外,还要考虑反向链接中的关键词因素。
具体来说,当一个文件被索引到数据库中时,它会与文件的超链接和每个超链接使用的锚文本(链接文本)一起记录。而关键词也会建立一个数据库,每一个词都会连同收录这个词的超链接和这些超链接指向的文档一起记录下来。
当搜索关键词时,以关键词为链接文本的反向链接数量最多的文件或网页将作为最相关的结果排在第一位。这是当今SEO的常识:链接锚文本会提高页面和关键词的相关性。
这是基本思想,当然还有其他变量需要考虑。例如,当搜索字符串收录多个单词时,每个单词都是搜索向量的一个维度。
该专利申请已经提到了词干提取技术,并提到了不同语言文档的相关性。
考虑搜索算法中的链接,主要是链接锚文本,是李彦宏的首创。可能是谷歌的创始人在提出PR价值理论时受到了李彦宏的专利的启发。他们听了李彦宏的演讲,向李彦宏提问。
谷歌的公关专利专注于应用超链接分析后无法解决的问题。在谷歌的专利申请中,明确提到即使在考虑了文件链接和链接锚文本之后,搜索引擎仍然有一个重要的问题需要解决,即来自不同文件的链接具有不同的权重值。
你不能指望来自白宫网站 的链接和来自非洲小镇的学生个人网站 的链接具有相同的投票价值。而 Google PageRank 是衡量网页重要性的一种方式。指向一个网页的链接越多,这些链接本身的权重越高,所指向网页的重要性和PageRank就越高。
Google 的专利申请展示了如何计算称为 PageRank 或简称 PR 值的重要性指数。PR 的计算需要多次循环代换计算才能收敛到一个稳定值。通常,PR值收敛到一定精度,不需要计算最终值。
Google PR 与搜索词无关,或者与文件相关性无关。它只描述某个文件的重要性或状态。
从目前所有搜索引擎的表现来看,可以肯定的是,这两种技术在排名算法中都得到了应用,虽然名称可能有所不同。当然,现在的搜索算法比原来的复杂很多,超链接分析和PR值算法现在肯定也经历了很多修改。