搜索引擎优化pdf(作为一种功能强大的搜索引擎,Googic的背后似乎隐藏着巨大的奥秘)

优采云 发布时间: 2021-11-16 22:09

  搜索引擎优化pdf(作为一种功能强大的搜索引擎,Googic的背后似乎隐藏着巨大的奥秘)

  2007-05-02 05:44 作为一个强大的搜索引擎,Googic 似乎隐藏着一个巨大的谜团。本文是两位 Googic 创始人在 1998 年国际互联网大会上发表的论文。完整分析,帮助读者了解谷歌的实现流程1。为什么使用GoogleWeb结构的特殊性给信息采集带来了新的挑战。在 Web 上的信息量快速增长的同时,没有使用 Web 经验的新用户也在日益增加。使用高质量的搜索引擎无疑可以缩短网络与新用户之间的距离。每个人都关心的是搜索质量和效率。雅虎曾经是用户的最佳选择。雅虎的人工维护方式可以有效覆盖最热门的话题。然而,维护人员的主观性、维护成本高、更新速度较慢都是雅虎的缺陷。更重要的是,这种方法并没有涵盖用户关心的所有主题。这些都制约了雅虎的进一步发展。基于关键字的搜索引擎随之而来,但新的问题随之而来:搜索引擎产生了大量的“垃圾”结果,遮挡了用户的视线,也考验了更多人的耐心。一些广告主为了吸引用户的注意力,使用一些手段来欺骗搜索引擎,使事情变得更糟。谷歌针对上述问题提供了新的解决方案。这些都制约了雅虎的进一步发展。基于关键字的搜索引擎随之而来,但新的问题随之而来:搜索引擎产生了大量的“垃圾”结果,遮挡了用户的视线,也考验了更多人的耐心。一些广告主为了吸引用户的注意力,使用一些手段来欺骗搜索引擎,使事情变得更糟。谷歌针对上述问题提供了新的解决方案。这些都制约了雅虎的进一步发展。基于关键字的搜索引擎随之而来,但新的问题随之而来:搜索引擎产生了大量的“垃圾”结果,遮挡了用户的视线,也考验了更多人的耐心。一些广告主为了吸引用户的注意力,使用一些手段来欺骗搜索引擎,使事情变得更糟。谷歌针对上述问题提供了新的解决方案。

  一是Google基于关键词,突破了查询主题的限制;其次,谷歌利用网页超链接的深度和原创的PageRan算法赋予网页“冉”的含义:用户的搜索结果按照页面的级别(冉)进行排序。高级网络链接排名第一。Google这个名字的由来也很有趣:Google的创造者指的是googol这个词的拼写(10的100次方),这可能与作者建立大型搜索引擎的目标不谋而合。2. 设计目标 正如您所想,GOOGLE 的主要目标是提高搜索引擎的搜索质量和易用性。在 1997 年 11 月进行的一项调查中,当排名前四的商业搜索引擎使用自己的名字作为关键字进行查询时,只有一个搜索引擎在其搜索结果中对前 10 个查询结果进行了排名。找到自己。问题已经很明显了:用户关心的不是搜索引擎能提供多少查询结果,而是在搜索引擎能提供的前十几个查询结果中,能否找到自己满意的答案。正因为如此,如何提供一种新的搜索引擎技术,在Web文档呈指数级增长的情况下,易于操作且能够提供准确的查询?这成为了人们关注的焦点。近年来的一些相关研究为谷歌开辟了思路。这些研究的主要方向是:如何从页面的超链接文本中获取对开发者有用的信息。谷歌正是通过对 HTML 文档中超文本链接的深入分析,为其准确度算法提供了理论依据。谷歌希望通过自己的努力,将原本属于商业领域的搜索引擎技术带入理论研究的范畴,让更多人参与和完善。谷歌将其系统比作大型实验室环境,欢迎其他领域的研究人员参与。在像 Googl 这样的数千家组织的推动下,Web 获得了前所未有的发展势头。3. 技术分析 Googl 能够获得高效的查询结果得益于其两个重要的技术特性:一是Googl 分析了整个Web 的链接结构,然后计算每个网页的级别并进行综合评分。这是Googl采用的PageRank技术;其次,Googl 充分利用链接提供的信息,进一步提高查询质量。3.1 PageRank:页面排名技术 Googl的核心技术叫PageRank,是由Googl创始人拉里·帕格和斯坦福大学谢尔盖·布林开发的网页排名系统。PageRank 作为一种组织管理工具,利用了互联网的独特特性及其庞大的链接结构。在海量的链接资源中,Googl 提取了数亿个超链接进行分析,并制作了一张庞大的网络地图(Map)。基于这张图,PageRank 技术可以快速计算出网页的排名(Rank)。这个级别的基础是:当从网页 A 链接到网页 B 时,Googl 认为“网页 A 投票给了网页 B”。Googl 根据网页上的投票数评估其重要性。但是,除了考虑网页上的净投票数(即链接)外,Googl 还会分析投票的网页。1 PageRank:页面排名技术 Googl的核心技术叫PageRank,是由Googl创始人拉里·帕格和斯坦福大学谢尔盖·布林开发的网页排名系统。PageRank 作为一种组织管理工具,利用了互联网的独特特性及其庞大的链接结构。在海量的链接资源中,Googl 提取了数亿个超链接进行分析,并制作了一张庞大的网络地图(Map)。根据这张地图,PageRank 技术可以快速计算网页的排名(Rank)。这个级别的依据是:当从网页A链接到网页B时,Googl认为“网页A投票给了网页B”。Googl 根据网页上的投票数评估其重要性。但是,除了考虑一个网页上的纯投票数(即链接)之外,Googl 还分析了投票的网页。1 PageRank:页面排名技术 Googl的核心技术叫PageRank,是由Googl创始人拉里·帕格和斯坦福大学谢尔盖·布林开发的网页排名系统。PageRank 作为一种组织管理工具,利用了互联网的独特特性及其庞大的链接结构。在海量的链接资源中,Googl 提取了数亿个超链接进行分析,并制作了一个巨大的网络地图(Map)。基于这张图,PageRank 技术可以快速计算出网页的排名(Rank)。这个级别的依据是:当从网页A链接到网页B时,Googl认为“网页A投票给了网页B”。Googl 根据网页上的投票数评估其重要性。但是,除了考虑一个网页上的纯投票数(即链接)之外,Googl 还分析了投票的网页。Googl 根据网页上的投票数评估其重要性。但是,除了考虑一个网页上的纯投票数(即链接)之外,Googl 还分析了投票的网页。Googl 根据网页上的投票数评估其重要性。但是,除了考虑一个网页上的纯投票数(即链接)之外,Googl 还分析了投票的网页。

  为“重要”页面投的票将具有更高的权重,有助于增加其他页面的“重要性”。Googl以其复杂的全自动搜索方式排除了人为因素对搜索结果的影响。因此,PageRank 是相对公平的。从这个意义上说,PageRank对于基于关键词搜索的引擎技术来说无疑是一项优秀的技术。Googl 可以帮助您方便、诚实、客观地在网页上找到任何有价值的信息。3.1.1 PageRank算法描述 近年来,大量的学术研究成果被应用到Web上,主要用于统计网页引用或反向链接。这些数据为网页的重要性和价值分析提供了粗略的基础。基于此,PageRank 进一步计算链接在所有网页中出现的次数。PageRank 定义如下: 假设页面 A 有很多链接到他,定义为页面 T1...Tn。然后我们定义阻尼系数d(0<=d<=1)。通常指定d=0.85(译者注:下一节给出一个例子分析)函数C(A)表示页面A中其他页面的链接数。那么,页面A的PageRank(PR(A))可以通过以下公式计算:PR(A)=(1-d)+d(PR(T< @1)/C(T1)+...PR(Tn)/c(Tn)) 注意PageRank的值是通过整个Web计算的,所以所有的PageRank值的总和页数必须为 1.. 定义为页面 T1...Tn。然后我们定义阻尼系数d(0<=d<=1)。通常指定d=0.85(译者注:下一节给出一个例子分析)函数C(A)表示页面A中其他页面的链接数。那么,页面A的PageRank(PR(A))可以通过以下公式计算:PR(A)=(1-d)+d(PR(T< @1)/C(T1)+...PR(Tn)/c(Tn)) 注意PageRank的值是通过整个Web计算的,所以所有的PageRank值的总和页数必须为 1.. 定义为页面 T1...Tn。然后我们定义阻尼系数d(0<=d<=1)。通常指定d=0.85(译者注:下一节给出一个例子分析)函数C(A)表示页面A中其他页面的链接数。那么,页面A的PageRank(PR(A))可以通过以下公式计算:PR(A)=(1-d)+d(PR(T< @1)/C(T1)+...PR(Tn)/c(Tn)) 注意PageRank的值是通过整个Web计算的,所以所有的PageRank值的总和页数必须为 1..

  通过简单的递归计算,并参考Web中规范链接矩阵的主要特征向量,我可以计算出一个页面的PageRank(PR(A))。假设计算大约26,000,000页的PageRank,使用中型工作站,大约需要几个小时。具体的实现细节超出了本文的范围,读者可以参考相关文档。3.1.2 PageRank 模型 为了更好地理解 PageRank,我们构建了以下假设模型。我们假设网络用户正在随机浏览某个网页。随着兴趣的变化,他也可能会随机点击页面上的另一个链接跳转到其他页面(暂时假设用户没有使用后退按钮)。在这个模型中,吸引用户点击某个页面链接的概率就是该页面的PageRank。用户由于某些因素选择其他链接的概率就是页面的阻尼系数d。在一些极端情况下,比如一些页面可能很少被人访问,这些页面会积累很高的阻尼系数。因此,PageRank 的技术可以公平有效地避免某些系统欺骗搜索引擎以获得更高的级别。通常来说,一般来说。网页上指向的链接越多,PageRank 值就越高。同样,引用的“重量级”网站(如雅虎)越多,PageRank 值也会越高。在一些极端情况下,比如一些页面可能很少被人访问,这些页面会积累很高的阻尼系数。因此,PageRank 的技术可以公平有效地避免某些系统欺骗搜索引擎以获得更高的级别。通常来说,一般来说。网页上指向的链接越多,PageRank 值就越高。同样,引用的“重量级”网站(如雅虎)越多,PageRank 值也会越高。在一些极端情况下,比如一些页面可能很少被人访问,这些页面会积累很高的阻尼系数。因此,PageRank 的技术可以公平有效地避免某些系统欺骗搜索引擎以获得更高的级别。通常来说,一般来说。网页上指向的链接越多,PageRank 值就越高。同样,引用的“重量级”网站(如雅虎)越多,PageRank 值也会越高。

  相反,那些设计不佳或被损坏链接指向的网页会逐渐被用户遗忘。这些都是PageRank技术综合考虑的因素。3.2 锚文本(anchor text) 在谷歌中,对链接的文本(text of link)进行了特殊的处理。大多数搜索引擎将链接文本与其所在的页面相关联,而 Google 将链接文本与其指向的文档相关联(认为应该如此)。这有很多好处:第一,锚点一般会提供它所指向的文档的准确描述,而这些信息往往在页面本身上是没有的;第二,对于那些不能被基于文本的搜索引擎索引的文件,比如图像、程序和数据库,可能有指向它们的链接,以便引擎无法检索和分析的那些文档也可以作为查询结果返回。但是,这样做也可能会导致一些问题,因为这些文档在返回给用户之前还没有经过搜索引擎的有效性检查。在这种情况下,搜索引擎可以简单地返回查询结果,甚至不考虑页面是否存在,而是考虑是否有超链接。你可能会问,这样合适吗?不用担心,因为查询结果是经过层级排序输出的,这种特殊情况可能根本看不到。其实,这种使用锚文本技术的想法可以追溯到更早的万维网蠕虫搜索引擎。因为这些文件在返回给用户之前没有经过搜索引擎的有效性检查。在这种情况下,搜索引擎可以简单地返回查询结果,甚至不考虑页面是否存在,而是考虑是否有超链接。你可能会问,这样合适吗?不用担心,因为查询结果是经过层级排序输出的,这种特殊情况可能根本看不到。其实,这种使用锚文本技术的想法可以追溯到更早的万维网蠕虫搜索引擎。因为这些文件在返回给用户之前没有经过搜索引擎的有效性检查。在这种情况下,搜索引擎可以简单地返回查询结果,甚至不考虑页面是否存在,而是考虑是否有超链接。你可能会问,这样合适吗?不用担心,因为查询结果是经过层级排序输出的,这种特殊情况可能根本看不到。其实,这种使用锚文本技术的想法可以追溯到更早的万维网蠕虫搜索引擎。不用担心,因为查询结果是经过层级排序输出的,这种特殊情况可能根本看不到。其实,这种使用锚文本技术的想法可以追溯到更早的万维网蠕虫搜索引擎。不用担心,因为查询结果是经过层级排序输出的,这种特殊情况可能根本看不到。其实,这种使用锚文本技术的想法可以追溯到更早的万维网蠕虫搜索引擎。

  它允许 WWWW 检索非文本信息,甚至扩展到一些可下载的文档。Google 继承了这个想法,因为它可以帮助提供更好的搜索结果。但是,使用这项技术需要克服很多技术难点,首先要做的就是如何处理如此庞大的数据量。我们来看一组数据。在谷歌爬虫检索到的24万个网页数据中,需要处理的链接数高达2.59亿。3.3 其他功能 除了PageRank和锚文本技术,谷歌还有一些其他的技术。首先,对于所有的命中,谷歌记录了该词在文档中的位置信息,可用于最终查询中的词相似度分析。第二,谷歌还记录了页面上的字体大小和大小写等视觉信息。有时,可以使用大字体和粗体设置来表示一些重要信息。第三,将所有页面的 HTML 代码保存在存储库数据库中。(注解:Hit是谷歌定义的一种数据结构,hit和相似度的描述见下文。) 4. 系统分析 从上面我们已经了解了谷歌的一些工作原理。本章我们将一起讨论谷歌的系统框架,然后详细介绍谷歌使用的一些数据结构。Hit 是谷歌定义的一种数据结构。关于命中和相似度的描述,详见下文。) 4. 系统分析 从上面我们已经了解了谷歌的一些工作原理。本章我们将一起讨论谷歌的系统框架,然后详细介绍谷歌使用的一些数据结构。Hit 是谷歌定义的一种数据结构。关于命中和相似度的描述,详见下文。) 4. 系统分析 从上面我们已经了解了谷歌的一些工作原理。本章我们将一起讨论谷歌的系统框架,然后详细介绍谷歌使用的一些数据结构。

  最后,我们一起来分析一下谷歌使用的三个关键技术:网络爬虫、索引和基于关键字的搜索。4.1 Google System Framework 本节我们将讨论Google System Framework的运行过程,如图1所示。下面的部分将详细介绍所使用的技术和数据结构。考虑到执行效率,谷歌的大部分代码都是用C/C++语言实现的,可以同时运行在Solaris和Linux系统上。图一

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线