seo搜索引擎优化技巧(要害词WorldWideWeb,搜索引擎,)
优采云 发布时间: 2021-10-16 12:00seo搜索引擎优化技巧(要害词WorldWideWeb,搜索引擎,)
在这个文章中,我们介绍了谷歌,它是一个*敏*感*词*搜索引擎的原型,广泛用于超文本。谷歌旨在高效地抓取和索引网页,其查询结果优于其他现有系统。该原型的全文和超链接数据库收录至少 24'000'000 个网页。我们可以从下载。
设计搜索引擎是一项具有挑战性的任务。搜索引擎索引了数亿个网页,其中收录大量不同的词。并且每天回答数以千计的询问。在互联网中,虽然大型搜索引擎很重要,但学术界却鲜有研究。另外,由于技术的飞速发展和网页的大量增加,现在搜索引擎的建立与三年前完全不同。
本文专门介绍我们的大型搜索引擎。据我们所知,这是已发表论文中第一个如此具体的论文。除了将传统数据搜索技术应用到如此大量的网页中遇到的问题外,还有许多新的技术挑战,包括在超文本中应用附加信息来改善搜索结果。
本文将解决这个问题,并描述如何利用超文本中的附加信息来构建一个*敏*感*词*的实用系统。任何人都可以在互联网上自由发布信息。如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。
关键词万维网,搜索引擎,信息检索,PageRank,谷歌
1 简介
Web 给信息检索带来了新的挑战。Web 上的信息量正在迅速增长,与此同时,缺乏经验的新用户继续体验 Web 的艺术。人们喜欢使用超链接上网,通常从重要的网页或 Yahoo 等搜索引擎开始。大家都认为List(目录)有效地收录了大家喜欢的话题,但主观性强,构建和维护成本高,升级慢,不能收录所有深奥的话题。基于关键字的自动搜索引擎通常会返回过多的低质量匹配项。更糟糕的是,一些广告试图误导自动搜索引擎,以赢得人们的注意。我们构建了一个大型搜索引擎来解决现有系统中的许多问题。超文本结构的应用大大提高了查询质量。我们的系统命名为google,它源自于流行的googol拼写,即10的100次方,这与我们构建大型搜索引擎的目标不谋而合。
1.1 个互联网搜索引擎——扩*敏*感*词*:
1994-2000 搜索引擎技术必须大幅扩展以跟上网络数量的指数增长。
1994 年,第一个 Web 搜索引擎万维网蠕虫 (WWWW) 可以检索 110,000 个网页和 Web 文档。
到 1994 年 11 月,顶级搜索引擎声称能够检索 2'000'000(WebCrawler)到 100'000'000 个网络文件(来自 Search Engine Watch)。
可以预见,到2000年,可搜索网页的数量将超过1'000'000'000。同时,搜索引擎的访问量也会以惊人的速度增长。
1997 年 3 月和 4 月,万维网蠕虫平均每天收到 1,500 个查询。
1997 年 11 月,Altavista 声称它每天必须处理大约 20 000 000 个查询。随着网络用户的增长。
到 2000 年,自动搜索引擎每天将处理数亿次查询。我们系统的设计目标是解决许多问题,包括质量和可扩展性,引入可伸缩搜索引擎技术,并将其升级到如此大量的数据。
1.2 谷歌:
与 Web 一起扩展将面临许多挑战,以构建能够适应当今 Web 规模的搜索引擎。网页抓取技术必须足够快,以跟上网页变化的速度(保持更新)。存储索引和文档的空间必须足够大。索引系统必须能够有效处理数千亿的数据。处理查询必须很快,达到每秒数十万个查询(每秒数百到数千个)。随着 Web 的不断发展,这些任务变得越来越困难。但是,硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。还有几个因素值得关注,比如磁盘寻道时间和操作系统的健壮性。在设计 Google 的过程中,我们同时考虑了 Web 的增长速度和技术更新。Google 的设计可以升级以处理海量数据集。它可以有效地利用存储空间来存储索引。优化后的数据结构可以快速高效的访问(参考4.的第2节)。此外,我们希望存储和索引的成本相对于被抓取的文本文件和 HTML 页面的数量尽可能小(参见附录 B)。对于像谷歌这样的中心化系统,这些措施已经产生了令人满意的系统可扩展性(可伸缩性)。优化后的数据结构可以快速高效的访问(参考4.的第2节)。此外,我们希望存储和索引的成本相对于被抓取的文本文件和 HTML 页面的数量尽可能小(参见附录 B)。对于像谷歌这样的中心化系统,这些措施已经产生了令人满意的系统可扩展性(可伸缩性)。优化后的数据结构可以快速高效的访问(参考4.的第2节)。此外,我们希望存储和索引的成本相对于被抓取的文本文件和 HTML 页面的数量尽可能小(参见附录 B)。对于像谷歌这样的中心化系统,这些措施已经产生了令人满意的系统可扩展性(可伸缩性)。
1. 3 设计目标
1.3.1 提高搜索质量 我们的主要目标是提高网络搜索引擎的质量。
1994年,有人认为建立完整的搜索索引(a complete search index)可以方便地查找任何数据。根据 Best of the Web 1994-Navigators 的说法,“最好的导航服务可以轻松地搜索 Web 上的任何信息(可以登录当时的所有数据)”。然而,1997 年的网络非常不同。最近,搜索引擎用户已经确认,索引的完整性并不是评价搜索质量的唯一标准。用户喜爱的搜索结果往往会丢失在“垃圾结果”中。事实上,截至 1997 年 11 月,四大商业搜索引擎中只有一个能够找到自己(在搜索自己的名字时返回的前十名结果中找到了它)。这个问题的主要原因是索引文档的数量增加了几个数量级,但用户可以看到的文档数量并没有增加。用户仍然只想在前面看到几十个搜索结果。因此,当集合增长时,我们需要工具来使结果准确(返回的前十个结果中相关文档的数量)。由于从数千个有些相关的文档中选择了数十个文档,实际上,相关概念指的是最好的文档。高精度非常重要,即使以响应为代价(系统可以返回的相关文档总数)。令人兴奋的是,超文本链接提供的信息可以帮助改进搜索和其他应用程序。特别是链接结构和链接文本为相关性确定和高质量过滤提供了大量信息。Google 同时使用链接结构和锚文本(参见 2.1 和 2.2 部分)。
1.3.2 随着时间的推移,除了搜索引擎学术研究的飞速发展,Web也越来越商业化。
1993 年,只有 1. 5% 的 Web 服务来自 .com 域名。到 1997 年,这一比例已超过 60%。与此同时,搜索引擎已经从学术领域转向商业领域。到目前为止,大多数搜索引擎都归公司所有,很少披露技术细节。这导致搜索引擎技术在很大程度上仍然是一个黑箱操作,并倾向于做广告(见附录A)。谷歌的主要目标是促进学术领域在这方面的发展和理解。另一个设计目标是给大家一个实用的系统。应用程序对我们来说非常重要,因为现代网络系统中有很多有用的数据(我们认为一些最有趣的研究将涉及利用现代网络系统中可用的大量使用数据)。例如,每天有数以千万计的研究。但是,这些数据的获取难度很大,主要是因为它们没有商业价值。我们的最终设计目标是建立一个可以支持对海量 Web 数据进行新研究的架构。为了支持新的研究,谷歌以压缩形式保存了实际捕获的文档。设计谷歌的目标之一是为其他研究人员快速进入该领域,处理海量网络数据,并获得满意的结果建立一个环境,但通过其他方法很难获得结果。该系统是在很短的时间内建立起来的。几篇论文已经使用了谷歌构建的数据库,更多的还在开始。我们的另一个目标是建立一个空间实验室这样的环境,