网站内容更新机制(Python语法简介以及强大的第三方库，反爬虫机制还没有)

优采云发布时间: 2022-02-23 19:03

　　由于它引入了Python语法和强大的第三方库，我们用它来制作网络爬虫程序。网络爬虫的目的是处理数据采集，也就是从互联网上带来数据采集。

　　网络爬虫的难点其实并不在于爬虫本身。取而代之的是，网站增加了各种反爬取措施，以防止数据被爬取。为了继续从网站抓取数据，必须绕过这些措施。因此，网络爬虫的难点在于对反爬虫的克服和处理。那么本文主要介绍网站的一些防爬虫措施。

　　女孩图

　　这个网站的反爬虫机制比较简单。当我们使用 web 请求库下载图片时，网站会检查每个 HTTP 请求的 headers 头中的 Referer 字段。它判断该字段是否为空。如果该字段为空，则不会返回正常显示的图片，而是返回带有“图片来自姐妹网，请勿盗链”字样的图片。

　　遇到这种机制，突破也比较简单。对于每个 HTTP 请求，使用页面的 url 地址填充Referer 字段。

　　豆瓣

　　几乎所有新爬虫都会爬豆瓣练手。但豆瓣依旧保持开放的态度，反爬虫机制还是很人性化的。其反爬机制大致如下：

　　1、在不携带cookie的情况下，如果某个IP在短时间内有高并发请求网站，会立即阻塞该IP。当IP被封禁时，登录豆瓣网站会解除封禁。

　　3、在携带cookie的情况下，IP请求网站过于频繁。豆瓣的反爬机制改为只屏蔽cookie不屏蔽IP。也就是说，如果您退出或更改您的帐户，您可以继续访问网站。

　　面对如此体贴的网站对于新手，我们千万不能这么咄咄逼人。我们只需要在代码中登录账号，减少并发数，等待随机延迟。我们的爬虫不会被阻止。

　　拉钩网

　　拉狗网站刚出来的时候，反爬虫机制还没有现在这么严格。估计爬网站的人比较多，网站管理员增加了一些保护服务器的手段。网站的反爬虫机制大概是这样的。

　　1、没有登录，程序只能连续访问3个Url。如果我们继续，网站将重定向链接并提示我们登录。

　　2、如果在登录条件下不断请求部分url，我们的IP将被阻止。

　　对于这样的爬虫机制，我们只能使用IP代理池来突破。

　　汽车之家

　　汽车之家论坛的反爬虫机制比较先进。它采用前端页面自定义字体的方式，实现反爬的技术手段。具体来说，使用了 CSS3 中的自定义字体 (@font-face) 模块。自定义字体主要是将自定义的Web字体嵌入到指定的网页中。这导致当我们抓取论坛帖子的口碑时，返回的文本中每隔几个单词就会出现一个乱码。

　　每次访问论坛页面，这里的字体都是一样的，只是字符编码变了。因此，我们需要在每次访问的基础上动态解析字体文件。

　　具体可以先访问需要爬取的页面，获取字体文件的动态访问地址并下载字体，读取js渲染的文本内容，将自定义字体编码替换为实际文本编码，然后恢复网页到什么页面看到的内容。

　　最后一句良心话，我们爬取别人网站的数据，做到不伤害别人网站。所以建议在网站访问高峰期不要爬取数据，晚上尽量爬取。同时设置延迟操作以减少并发数。

0

2022-02-23

网站内容更新机制

0 个评论

要回复文章请先登录或注册