网站程序自带的采集器采集文章(怎么通过nginx来屏蔽网络爬虫的危害,nginx服务器屏蔽)

优采云 发布时间: 2021-11-02 12:08

  网站程序自带的采集器采集文章(怎么通过nginx来屏蔽网络爬虫的危害,nginx服务器屏蔽)

  2019-3-27 10:6:13 网络爬虫对服务器的危害,nginx服务器屏蔽网络爬虫采集器

  网络上有很多恶心的鬼程序爬虫,日日夜夜采集他人网站,把别人的劳动成果当成自己的。想到这些不受欢迎的爬虫,相信很多站长都心痒痒的,但也无计可施。

  网络爬虫的缺点:

  采集器频繁的爬取影响了网站的正常运行,特别是对于低配置的服务器,那个可怜的虚拟空间的流量可能很快就会耗尽。网站这种经常打不开或者打开很慢的类型,除了本身服务器配置不好,往往是网络采集器造成的。

  每一个网站通常都会遇到很多非搜索引擎爬虫。这些爬虫大多用于内容采集或初学者编写的内容。它们与搜索引擎爬虫不同,没有频率。控制往往会消耗大量服务器资源,造成带宽浪费。下面介绍如何通过nginx拦截网络爬虫。

  

  经常在网上看到seo或者站长朋友使用robots.txt文件的User-Agent配合Disallow命令实现拦截。指导某人在网站的根目录下创建robots.txt文件,并写了一堆指令禁止不受欢迎的爬虫。我满心欢喜,以为屏蔽效果就达到了,目的就达到了。事实上,事实并非如此。首先我们要明白,robots.txt只是网络机器人(或蜘蛛)的爬行条约。请注意,这只是一项条约。欢迎哪些爬虫爬取?

  此类条约实际上不具有约束力。爬虫是否遵守这些条约是另一回事。对于爬虫中的绅士(常规搜索引擎)来说真的很有效。他们来到网站之后,通常会检查机器人。.txt 文件,老老实实按照站长的规则抓取网页,但是对那些采集 爬虫有效吗?可以肯定的是:无效,他们完全忽略robots.txt,他们只需要网站的内容,而且,当你看到那些明确指定为不可抓取的网页时,你会加倍努力采集 既然不允许爬行,也许有什么好东西?

  所以robots.txt不是*敏*感*词*,可以防君子,防小人。但也不是不可能,作为领先的web服务器:Apache和nginx其实是有屏蔽策略的,关键是能不能用。下面是我之前单位使用的一个禁止策略,可以拦截采集的一些程序。现在把代码放在下面,操作方法:找到nginx.conf配置文件,把下面的代码放到服务器中。

  1

  2

  3

  4

  #禁止爬虫工具和无关搜索引擎

  if($http_user_agent~*(Scrapy|Curl|HttpClient|python|phantomjs|EtaoSpider|HuihuiSpider|WochachaSpider|GwdangSpider|YYSpider|MJ12bot|^$)){

  返回403;

  }

  结果是这样的:

  1

  2

  3

  4

  5

  6

  7

  8

  9

  10

  服务器

  {

  #禁止爬虫工具和无关搜索引擎

  if($http_user_agent~*(Scrapy|Curl|HttpClient|python|phantomjs|EtaoSpider|HuihuiSpider|WochachaSpider|GwdangSpider|YYSpider|MJ12bot|^$)){

  返回403;

  }

  #下面是其他配置项

  }

  保存配置文件并使用命令行:

  1

  systemctlrestartnginx

  重启nginx服务生效。

  其他方法:

  1. 基于程序本身防止爬行:作为爬虫程序,爬行行为就是爬取页面的源文件,比如爬取一个静态页面的html代码,可以用jquery模仿写html,这种方法伪装页面很难被抓取,但是这种方法对程序员的要求很高。

  2.基于iptables和shell脚本:可以定义nginx的access.log的策略。比如定义1分钟并发连接数超过30个ips就是非法的。如果ip不在白名单中,加iptables策略块 当然,这种的缺点是会有“伤害”。细粒度的策略越小,“伤害”就越大。粒度越大,效果越差。此外,还有类似的第三方工具fail2ban。做过滤器和演员来记录或阻止一些有害操作的 ip。但是,很难准确拒绝特定爬虫地址(如网易、有道)的抓取行为,因为您无法准确知道这些特定的爬虫IP地址(如网易、有道),下面是我的定位方法,但是发现屏蔽错误是ip库不准确造成的。注意:不推荐使用封ip入口的方法。当iptables列表长度为65535时,会满,服务器崩溃。

  这篇文章是一个灵感,它只能处理一般的网络采集程序。我们与网络爬虫的斗争才刚刚开始。更多信息请关注数据。

  标签:什么是网络爬虫以及如何防止网络爬虫被非搜索引擎爬虫禁止采集 程序发布:云计算数据栏 | 类别:日常维护 | 评论:0 | 浏览:

  数据条-为您提供免备案的虚拟空间,国外主机,独立IP空间,高速稳定,支持包月付款。高防云服务器月付98元起,美国VPS月付98元起,香港云服务器月付55元起,高防CDN月付298元起,香港物理服务器月付起698元,韩国服务器租用月付98元起,最低动态IP为78/月,省去备案的麻烦,数据栏带你进入免备案时代。

  留言:

  ◎欢迎参与讨论,请在此发表您的看法,交流您的看法。

  搜索

  产品购买入口

  网站类别

  文章存档

  链接

  车站标志入口

  Powered By 站长信息中心 站长信息中心为您提供各类站长信息、站长信息,我们的宗旨是为广大站长服务。您将在这里获得最新、最全面、最专业的行业资讯和网站施工技术文档!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线