搜索引擎如何抓取网页(做搜索引擎优化,我们遇到的最常见的问题(组图))

优采云 发布时间: 2021-10-11 04:02

  搜索引擎如何抓取网页(做搜索引擎优化,我们遇到的最常见的问题(组图))

  在做搜索引擎优化时,我们遇到的最常见的问题之一就是理解“搜索引擎如何确定哪个结果出现在搜索结果的前列?” 在这里,我们参考了谷歌工程师 Matt Cutts 给出的技术文档,简单给大家揭秘谷歌是如何抓取、收录 和评分网页的。其他引擎也遵循这个原则,所以直接参考这篇文章签到。

  爬行和 收录

  在你看到搜索引擎搜索结果中出现的页面之前,搜索引擎已经在后台做了很多步骤。搜索引擎的第一步是抓取和收录 互联网上的数十亿个网页。这项工作是由搜索引擎的机器人(蜘蛛程序)完成的,它浏览网络服务器以抓取文件。爬虫程序不仅仅是在互联网上漫无目的地游荡。它访问服务器上的特定网页,然后扫描网页上的超文本链接。如果有新文件,也是这样捕获的;蜘蛛程序给它得到的每一个。一个网页有一个数字,指向它抓取的网页。

  蜘蛛程序爬取了很多网页,但这些网页并不容易搜索到。如果没有索引,就得查询一个词,比如“内战”,搜索引擎的服务器每次都要读取每个文件的所有内容。因此,第二步是建立索引。我们没有扫描每个文件的所有内容,而是巧妙地“转换”了数据并列出了每个文件中收录的特定单词。例如,“domestic”一词可能出现在文件 3、8、22、56、68 和 92 中,而“war”一词出现在文件 2、8、15、22、68 和 77 中。

  建立索引后,我们就可以开始对网页进行评分并确定网页的相关性。假设有人在搜索引擎的搜索栏中输入“内战”进行查询。为了提交搜索结果并对结果进行评分,我们需要做两件事:

  1. 找到收录用户查询词的网页

  2. 根据相关性对匹配的网页进行评分

  搜索引擎开发了一种有趣的技术来加速第一步:搜索引擎不是将整个索引存储在强大的计算机上,而是使用数百台计算机来存储这些信息。因为任务被分到多台电脑上,所以你可以更快的找到你需要的答案。为了详细解释,假设一本书的目录有 30 页。如果一个人想在目录中搜索信息,每个查询都需要几秒钟;如果用 30 人来查询目录的一页,显然比一个人要好。查询速度要快很多。同样,搜索引擎将数据存储在多台计算机上,这样搜索速度也会大大加快。

  我们如何找到收录用户搜索词的网页?回到“内战”的例子,“国内”一词出现在3、8、22、56、68、92号文件中;“war”出现在文档 2、8、15、22、68 和 77 中。请注意出现这两个词的两个文档。

  国内 3 8 22 56 68 92

  战争 2 8 15 22 68 77

  内战 8 22 68

  这样我们就可以清楚的发现,三个文件(8、22、68))中同时出现了“domestic”和“war”这两个词。 list". , 搜索文件中收录这两个词,这叫做交叉搜索位置列表。(交叉搜索比较快的方法是同时搜索,如果一个搜索列表是22到68,那么另一个就可以开始了寻找另一个)

  给结果打分

  现在我们有一些网页收录用户对 关键词 的搜索,我们想要评价它们的相关性。搜索引擎使用许多参数进行排名。其中,PR算法是众所周知的。PageRank 评估两个因素:1、有多少网页链接到该网页,以及这些链接网页的质量如何网站。通过PageRank,链接到五六个高质量网站的链接,例如链接到网站的链接不如其他网站更有价值。

  但是除了 PageRank 之外,我们还使用了许多其他参数来进行排名。例如,如果一个文档收录排列在一起的“国内”和“战争”两个词,则该文档可能比讨论革命战争的文档(在文档中的某处使用“国内”)更相关。例如,假设一个网页的标题是“内战”,这比另一个标题为“19 世纪美国服装”的网页更相关。

  同样,如果“内战”在网页中多次出现,其相关度也比只出现一个网页的要高。假设你是一个搜索引擎,选择一个词查询,比如:内战或回收,在搜索引擎上查询,从结果中选择三到四页打印出来。从每个打印的页面中找出你搜索语句的每一个单词并用荧光笔标记,然后将这些页面贴在墙上,后退几步眯眼,当你不知道页面内容时,你只能看到彩色方块,您认为哪个页面最相关?大标题和重复颜色是否代表更高的相关性?你喜欢这些词出现在顶部还是底部?这些词出现的频率如何?这就是搜索引擎判断网页相关性的方式。

  原则上,搜索引擎总是试图找到最可靠和最相关的网页。如果根据查询语句,两个网页的信息大致相同,搜索引擎通常会选择可信度更高的网站网页。当然,如果有一些因素表明这个网站的网页更相关,搜索引擎通常会选择PageRank较低的网站。

  一旦搜索引擎完成了文件列表及其分数,就会给出分数最高的网页。搜索引擎还从网页中提取收录查询关键词的一小段句子;提供指向网页的链接。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线