关键字采集文章(对搜索引擎爬虫爬取下来的网页结构做反爬虫加密)
优采云 发布时间: 2022-03-30 12:00关键字采集文章(对搜索引擎爬虫爬取下来的网页结构做反爬虫加密)
关键字采集文章都是从多家网站爬取下来的。从互联网中可以获取到搜索引擎爬虫所搜索的关键字,搜索引擎将爬虫爬取下来的网页结构存在一个独立的文件夹中。新浪的内部工具有一个robots文件,将搜索引擎爬虫爬取下来的网页上的规则都进行了封禁。百度和360要求爬虫爬取下来的网页不能进行加密;搜狗抓取下来的网页不能发布到网站,但是实际上,搜狗是会对规则进行修改的,所以它可以抓取其他搜索引擎抓取到的网页;谷歌的网页有自己的规则(国内称为谷歌反爬虫机制),所以会有“谷歌搜索技术”这个词出现;必应、yahoo、雅虎的网页没有反爬虫机制。
对于内部的规则,只要分析出搜索引擎爬虫爬取下来的网页的结构就可以提取出规则。关键字规则大概包括两个类型:一是中间规则,二是尾规则。所谓中间规则是指对搜索引擎爬虫爬取下来的网页进行javascript代码重构,变成更易于网页解析的代码,大大提高搜索引擎爬虫爬取速度,减少搜索结果的冗余信息,大大缩短页面搜索时间。
必应、yahoo、雅虎、谷歌对中间规则进行反爬虫加密。将获取的网页转化为中间规则,搜索引擎爬虫会借助一个浏览器查看器来反爬虫加密。雅虎的某个产品就有相关的产品,这个产品就是“揭露雅虎各种谎言”。对尾规则做反爬虫加密是相对比较麻烦的,尤其是要将尾规则与核心规则反向链接在一起才能达到关键字规则。现在我们有了这两个规则,就可以搭建一个自己的爬虫产品服务了。
爬虫之间是相互链接的,从上图可以看出来,一个搜索引擎爬虫爬取下来的网页,其尾规则就一定会被其他搜索引擎爬虫爬取下来,然后重新放到尾规则文件中。下面我们就通过反向链接将某个某个关键字规则反向链接进上一页。这个就是每个人最常用的关键字规则反向链接服务--自动化反向链接!获取了规则之后,我们就可以实现从百度、360、搜狗到新浪、网易等互联网上所有网站采集出这个关键字规则来。