搜索引擎优化知识完(通用爬虫技能结构爬虫体系体系体系体系介绍)
优采云 发布时间: 2021-12-19 21:02搜索引擎优化知识完(通用爬虫技能结构爬虫体系体系体系体系介绍)
一、爬虫系统的诞生
一般搜索引擎的处理对象是互联网网页。现在互联网网页的数量已经达到数百亿。因此,搜索引擎面临的第一个问题是:如何规划一个高效的下载系统,将如此大量的网页数据传输到本地?互联网网页的镜像备份在本地形成。
网络爬虫可以达到这个效果。要完成这个艰巨的任务,它是搜索引擎系统中非常重要和基础的组成部分。
本文首先介绍了与网络爬虫相关的技巧。虽然爬虫经过几十年的发展,在整体结构上已经比较成熟,但是随着互联网的不断发展,它们也面临着一些新的挑战。
二、一般爬虫技能结构
爬虫系统首先从互联网页面中仔细选择一部分网页,将这些网页的链接地址作为*敏*感*词*网址,将这些*敏*感*词*放入要爬取的网址行列。爬虫从要爬取的 URL 的行列中依次读取,并传递这些 URL。DNS将链接地址解析并转换为网站服务器对应的IP地址。
然后将网页的相对路径的标题赋予给网页下载器,由网页下载器负责页面的下载。
对于下载的网页,一方面存储在页面库中,等待建立索引等后续处理;另一方面,将已下载网页的网址置于已爬取的排名中,记录爬虫系统已下载该网页的网址,防止系统重复抓取。
对于新下载的网页,提取其中收录的所有链接信息,并在下载的URL列表中进行检查。如果发现该链接未被抓取,则将其置于待抓取的URL列表的末尾。该网址对应的网页会在后续的抓取进度中下载。
这样就形成了一个循环,直到要爬取的URL行为空,这意味着爬虫系统将对所有已经爬取过的网页进行爬取,此时一个完整的爬取过程已经完成。