google 搜索引擎优化(谷歌的成功背后,最关键作用的数学因素是什么?)
优采云 发布时间: 2022-02-06 00:10google 搜索引擎优化(谷歌的成功背后,最关键作用的数学因素是什么?)
一. 简介
在当今的互联网时代,有一家家喻户晓的公司——自1998年成立以来,在很短的时间内就获得了口碑,不仅超越了所有竞争对手,而且彻底改变了整个互联网生态。这家公司是当今互联网上排名第一的搜索引擎:谷歌。
这么出名的公司背后,自然有很多商战的故事,也有很多成功的因素。但与普通的商战故事不同,谷歌成功背后最关键的因素是数学因素。
这篇文章是关于这个数学因素的。
作为一个搜索引擎,谷歌的核心功能,顾名思义,就是网络搜索。说到搜索,我们都很熟悉,因为这是每个地球人都会有的技能。我们在字典里查一个新词,在图书馆查一本书,甚至在商店里找一个产品,等等,都是搜索。只需稍加挖掘,我们就可以看到这些搜索是可能的,而且每个人都这样做了,这在很大程度上要归功于三件事:
1、搜索对象的数量比较少——比如一个字典收录通常只有10000或20000个单词,而一个库收录通常不超过几十万个唯一图书。,一家商店通常不会超过几万件,以此类推。
2、搜索对象分类或排序很好——例如,字典中的单词按拼音排序,图书馆中的书籍按主题排序,商店中的物品按品种或用途排序等。
3、搜索结果的重复性低——比如字典里的同音字通常不超过几十个,图书馆里的同名书和商店里的同一种产品通常不超过几十个等等。。
但互联网的显着特点是以上三者都不满足。事实上,甚至在谷歌出现之前,互联网上的网页总数就已经超过了图书馆的图书数量等传统搜索对象的数量。而这只是冰山一角,因为与搜索书籍时简单的标题搜索不同,互联网上的搜索往往是直接搜索网页内容,相当于将书中的每一个词都变成了搜索对象。由此产生的数量着实令人瞠目结舌,不仅直接破坏了上面的第一项,而且二、三两。在互联网早期,雅虎网站等门户网站试图为网页创建分类系统,但随着网页数量的激增,这种做法很快成为“
互联网的这些“坏特性”给搜索引擎的设计带来了极大的挑战。在这些挑战中,相对而言,一、二或二的破坏相对容易解决,因为它主要对搜索引擎的存储空间和算力提出了更高的要求,只要有足够的A很多钱买“设备”,这些也算是容易解决的——套用电视剧《民居》里一个贪官的台词,“钱能解决的问题不是大问题”。但是第3条的破坏是致命的,因为无论搜索引擎的硬件多么强大,速度多么快,如果有数百万的搜索结果,任何想要“选择”的用户 从他们那里找到他真正想要的东西几乎是不可能的。这对于早期的搜索引擎来说是致命的,这不是金钱可以解决的问题。
这种致命的伤害应该如何治疗?秘诀其实很简单,就是对搜索结果进行排序,让用户最有可能需要的网页排在最前面,保证用户可以轻松找到。但问题是:网页的层次千差万别,用户的喜好千差万别。网上有一句标语叫:“在网上,没人知道你是狗”(在网上,没人知道你是狗)。即使用户是“无人知道”的人或狗,搜索引擎如何知道用户最可能需要哪些搜索结果并对其进行排序?
在谷歌主导互联网搜索之前,大多数搜索引擎采用的排名方式是根据搜索词在网页中出*敏*感*词*榜”,简直就是广告和垃圾邮件发送者的避风港。实际上,
二. 基本思想
正是在这样的背景下,1996年初,谷歌的创始人拉里佩奇和谢尔盖布林,当时在斯坦福大学读*敏*感*词*,开始研究网页排名问题。这两个小伙子致力于解决页面排序问题,既是因为他们导师的建议(佩奇后来称之为“我一生中得到的最好的建议”),也因为他们对问题背后的数学的理解。产生了兴趣。
页面排名问题背后的数学原理是什么?这必须从佩奇和布林看待这个问题的方式开始。
在佩奇和布林看来,网页的排名不能靠每个网页自己来宣传。无论 关键词 重复多少次,垃圾网页仍然是垃圾网页。那么,网页排名的可靠依据究竟是什么呢?佩奇和布林(两位父亲都是大学教授)出生在学术家庭,他们提出了一种学术界常用的方法,通过查看一篇论文的引用次数来判断学术论文的重要性。在 Internet 上,论文引用的等价物显然是指向网页的链接。因此,佩奇和布林提出了一个网页排名的思路,就是通过研究网页之间的相互链接来确定排名。具体来说,一个网页被其他网页链接的次数越多,它的排名就越高。不仅,但佩奇和布林进一步建议,一个网页被排名靠前的网页链接的次数越多,它的排名就越高。这篇文章的意义不言而喻,就像诺贝尔奖获得者引用的论文显然比普通研究人员引用的论文更有价值一样。按照这种思路,网页排名问题与整个互联网的链接结构有关系,也正是这种关系,使它成为一个不折不扣的数学问题。
虽然有一个思路,但具体计算并不容易,因为按照这个思路,要想知道一个网页Wi的排名,不仅要知道链接了多少个页面,还要知道各自的排名这些页面 - 因为从链接到排名靠前的页面更重要。但作为互联网大家庭的一员,Wi 本身也对其他网页的排名做出了贡献,而且基于排名靠前的网页的链接权重更大的原则,这种贡献也与 Wi 本身的排名有关。这样,我们就陷入了一个“先有鸡还是先有蛋”的循环:要知道 Wi 的顺序,我们需要知道与之链接的其他页面的顺序,并且要知道那些页面的顺序,首先,我们必须知道 Wi 的顺序。
为了打破这个循环,佩奇和布林采用了一个非常聪明的想法,就是分析一个虚拟用户在互联网上的漫游过程。他们假设一旦虚拟用户访问一个网页,下一步将有相同的概率访问该网页链接的任何其他网页。换言之,如果网页Wi有Ni个出站链接,则虚拟用户在访问Wi后在下一步点击这些链接中的任何一个的概率为1/Ni。乍一看,这个假设是不合理的,既然任何用户都有偏好,怎么可能以相同的概率访问一个网页的所有链接呢?但是如果我们考虑到佩奇和布林的虚拟用户实际上是互联网上所有用户的平均代表,这个假设并不像乍看起来那么不合理。那么是什么决定了网页的排名呢?由用户长时间漫游后访问每个网页的概率分布决定——理论上是无限次——访问概率越大的网页排名越高。
为了将此分析数学化,我们用 pi(n) 表示虚拟用户在第 n 次浏览时访问网页 Wi 的概率。显然,上述假设可以表示为(请读者自行证明):
pi(n+1) = Σj pj(n)pj→i/Nj
这里pj→i是描述互联网链接结构的指示函数(indicator function),它的定义是:如果网页Wj有指向网页Wi的链接,那么pj→i取值1,否则它为0。显然,这个假设反映了上面提到的Page和Brin的排名原理,因为右边求和公式的存在说明所有链接到Wi的网页Wj对Wi的排名都有贡献,而求和公式中的每一个term in 与 pj 成正比,说明这些页面的贡献与自己的排名有关,自排名越高(即 pj 越大),贡献越大。
为了符号简洁,我们将虚拟用户在第 n 次浏览时访问每个网页的概率组合成一个列向量 pn,其第 i 个分量为 pi(n),并引入一个仅与结构相关的矩阵 H互联网,其第i行第j列的矩阵元素为Hij = pj→i/Nj,则上式可改写为:
pn+1 = Hpn
这是计算页面排名的公式。
熟悉随机过程理论的读者一定已经看到,上式描述了一个马尔科夫过程,并且是其中最简单的一种,即所谓的平稳马尔科夫过程。而H就是所谓的转移矩阵,描述马尔可夫过程中转移概率分布。但是,普通马尔可夫过程中的转移矩阵通常是随机矩阵,即每列矩阵元素之和为1的矩阵(请想一想,这个特征的“物理意义”是什么? ?)。但是我们的矩阵H可能有一些列是零向量,所以矩阵元素之和为0,对应的是那些没有外部链接的页面,即所谓的“悬空页面”。
上式的解法是一件极其简单的事情,即:
pn = Hnp0
其中 p0 是虚拟读者在第一次访问时访问每个网页的概率分布(在 Page 和 Brin 的原创论文中,假设该概率分布是均匀的)。