google 搜索引擎优化(一个大型搜索引擎不谋而合的数量及应用)

优采云 发布时间: 2021-10-16 09:15

  google 搜索引擎优化(一个大型搜索引擎不谋而合的数量及应用)

  1 简介

  Web 给信息检索带来了新的挑战。Web 上的信息量正在迅速增长,新用户和没有经验的用户继续体验 Web 的艺术。人们喜欢使用超链接上网,通常从重要的网页或 Yahoo 等搜索引擎开始。大家都认为List(目录)有效地收录了大家感兴趣的主题,但这是主观的,WordPress的建立和维护成本高,升级慢,无法收录所有深奥的主题。基于 关键词 的自动搜索引擎通常会返回过多的低质量匹配项。更糟糕的是,一些广告试图误导自动搜索引擎,以赢得人们的注意。我们构建了一个大型搜索引擎来解决现有系统中的许多问题。超文本结构的应用大大提高了查询质量。我们的系统命名为google,它源自于流行的googol拼写,即10的100次方,这与我们构建大型搜索引擎的目标不谋而合。

  1.1 个互联网搜索引擎——扩*敏*感*词*:

  1994-2000 搜索引擎技术必须扩大(*敏*感*词*)以跟上网络数量的指数增长。1994 年,第一个 Web 搜索引擎 WorldWideWebWorm (WWWW) 可以检索 110,000 个网页和 Web 档案。到 1994 年 11 月,顶级搜索引擎声称能够检索 2'000'000(WebCrawler)到 100'000'000 个网络档案(来自 SearchEngineWatch)。可以预见,到2000年,可搜索网页的数量将超过1'000'000'000。同时,搜索引擎的访问量也会以惊人的速度增长。1997 年 3 月和 4 月,WorldWideWebWorm 平均每天收到 1,500 个查询。1997 年 11 月,Altavista 表示它每天处理大约 20 000 000 个查询。随着互联网上多用户的增长。到 2000 年,自动搜索引擎每天将处理数以亿计的查询。我们系统的设计目标是解决很多问题,包括质量和可扩展性,引入可伸缩搜索引擎技术,并将其升级到如此大量的数据。

  1.2谷歌:

  跟上网络的步伐(ScalingwiththeWeb)构建一个能够适应当今网络规模的搜索引擎将面临许多挑战。网页抓取技术必须足够快,以跟上网页变化的速度(keepthemuptodate)。存放索引和文件的空间必须足够大。索引系统必须能够有效处理数千亿的数据。处理查询必须很快,达到每秒数百或数千个查询(每秒十万个)。随着 Web 的不断发展,这些任务变得越来越困难。但是,硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。还有几个因素值得注意,例如磁盘搜索时间和操作系统稳健性。在设计 Google 的过程中,我们同时考虑了 Web 的增长速度和技术更新。Google 的设计可以很好地升级以处理海量数据集。它可以有效地利用存储空间来存储索引。优化后的数据结构可以快速高效的访问(参考4.的第2节)。此外,我们希望存储和索引的成本相对于被抓取的文本文件和 HTML 页面的数量尽可能小(参见附录 B)。对于像谷歌这样的中心化系统,这些措施已经产生了令人满意的系统可扩展性(可伸缩性)。优化后的数据结构可以快速高效的访问(参考4.的第2节)。此外,我们希望存储和索引的成本相对于被抓取的文本文件和 HTML 页面的数量尽可能小(参见附录 B)。对于像谷歌这样的中心化系统,这些措施已经产生了令人满意的系统可扩展性(可伸缩性)。优化后的数据结构可以快速高效的访问(参考4.的第2节)。此外,我们希望存储和索引的成本相对于被抓取的文本文件和 HTML 页面的数量尽可能小(参见附录 B)。对于像谷歌这样的中心化系统,这些措施已经产生了令人满意的系统可扩展性(可伸缩性)。

  1.3 设计目标

  1.3.1 提高搜索质量 我们的主要目标是提高网络搜索引擎的质量。1994年,有人认为建立完整搜索索引(acompletesearchindex)可以方便查询任何信息。根据 BestoftheWeb1994-Navigators 的说法,“最好的导航服务可以很容易地搜索 Web 上的任何信息(当时的所有信息都可以登录)”。然而,1997 年的网络非常不同。近期,多位搜索引擎用户确认,索引的完整性并不是评价搜索质量的唯一标准。多个用户感兴趣的搜索结果通常会丢失在“垃圾结果”中。事实上,截至 1997 年 11 月,四大商业搜索引擎中只有一个能够找到自己(它在搜索其名称时返回的前十名结果中名列前茅)。这个问题的主要原因是文件索引的数量增加了几个数量级,但可以被多个用户查看的文件数量并没有增加。许多用户仍然只想看到前十个搜索结果。因此,当集合增长时,我们需要工具来使结果准确(返回的前几十个结果中的文件数)。由于从数千个有些相关的文档中选择了数十个文档,实际上,相关概念指的是最好的文档。高精度非常重要,即使以响应为代价(系统可以返回的相关文件总数)。好消息是超文本链接提供的信息可以帮助改进搜索和其他应用程序。尤其是链接结构和链接文本,为相关性判断和高质量过滤提供了大量信息。Google 同时使用链接结构和锚文本(参见 2.1 和 2.2 部分)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线