搜索引擎优化知识完(通用爬虫技能结构爬虫体系体系体系体系介绍)

优采云发布时间: 2021-12-19 21:02

　　一、爬虫系统的诞生

　　一般搜索引擎的处理对象是互联网网页。现在互联网网页的数量已经达到数百亿。因此，搜索引擎面临的第一个问题是：如何规划一个高效的下载系统，将如此大量的网页数据传输到本地？互联网网页的镜像备份在本地形成。

　　网络爬虫可以达到这个效果。要完成这个艰巨的任务，它是搜索引擎系统中非常重要和基础的组成部分。

　　本文首先介绍了与网络爬虫相关的技巧。虽然爬虫经过几十年的发展，在整体结构上已经比较成熟，但是随着互联网的不断发展，它们也面临着一些新的挑战。

　　二、一般爬虫技能结构

　　爬虫系统首先从互联网页面中仔细选择一部分网页，将这些网页的链接地址作为*敏*感*词*网址，将这些*敏*感*词*放入要爬取的网址行列。爬虫从要爬取的 URL 的行列中依次读取，并传递这些 URL。DNS将链接地址解析并转换为网站服务器对应的IP地址。

　　然后将网页的相对路径的标题赋予给网页下载器，由网页下载器负责页面的下载。

　　对于下载的网页，一方面存储在页面库中，等待建立索引等后续处理；另一方面，将已下载网页的网址置于已爬取的排名中，记录爬虫系统已下载该网页的网址，防止系统重复抓取。

　　对于新下载的网页，提取其中收录的所有链接信息，并在下载的URL列表中进行检查。如果发现该链接未被抓取，则将其置于待抓取的URL列表的末尾。该网址对应的网页会在后续的抓取进度中下载。

　　这样就形成了一个循环，直到要爬取的URL行为空，这意味着爬虫系统将对所有已经爬取过的网页进行爬取，此时一个完整的爬取过程已经完成。

0

2021-12-19

搜索引擎优化知识完

0 个评论

要回复文章请先登录或注册