关键字采集文章(对搜索引擎爬虫爬取下来的网页结构做反爬虫加密)

优采云发布时间: 2022-03-30 12:00

　　关键字采集文章都是从多家网站爬取下来的。从互联网中可以获取到搜索引擎爬虫所搜索的关键字，搜索引擎将爬虫爬取下来的网页结构存在一个独立的文件夹中。新浪的内部工具有一个robots文件，将搜索引擎爬虫爬取下来的网页上的规则都进行了封禁。百度和360要求爬虫爬取下来的网页不能进行加密；搜狗抓取下来的网页不能发布到网站，但是实际上，搜狗是会对规则进行修改的，所以它可以抓取其他搜索引擎抓取到的网页；谷歌的网页有自己的规则（国内称为谷歌反爬虫机制），所以会有“谷歌搜索技术”这个词出现；必应、yahoo、雅虎的网页没有反爬虫机制。

　　对于内部的规则，只要分析出搜索引擎爬虫爬取下来的网页的结构就可以提取出规则。关键字规则大概包括两个类型：一是中间规则，二是尾规则。所谓中间规则是指对搜索引擎爬虫爬取下来的网页进行javascript代码重构，变成更易于网页解析的代码，大大提高搜索引擎爬虫爬取速度，减少搜索结果的冗余信息，大大缩短页面搜索时间。

　　必应、yahoo、雅虎、谷歌对中间规则进行反爬虫加密。将获取的网页转化为中间规则，搜索引擎爬虫会借助一个浏览器查看器来反爬虫加密。雅虎的某个产品就有相关的产品，这个产品就是“揭露雅虎各种谎言”。对尾规则做反爬虫加密是相对比较麻烦的，尤其是要将尾规则与核心规则反向链接在一起才能达到关键字规则。现在我们有了这两个规则，就可以搭建一个自己的爬虫产品服务了。

　　爬虫之间是相互链接的，从上图可以看出来，一个搜索引擎爬虫爬取下来的网页，其尾规则就一定会被其他搜索引擎爬虫爬取下来，然后重新放到尾规则文件中。下面我们就通过反向链接将某个某个关键字规则反向链接进上一页。这个就是每个人最常用的关键字规则反向链接服务--自动化反向链接！获取了规则之后，我们就可以实现从百度、360、搜狗到新浪、网易等互联网上所有网站采集出这个关键字规则来。

0

2022-03-30

关键字采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关键字采集文章(对搜索引擎爬虫爬取下来的网页结构做反爬虫加密)

0 个评论

发起人

AI时代内容工厂

关键字采集文章(对搜索引擎爬虫爬取下来的网页结构做反爬虫加密)

0 个评论

发起人

相关问题