网站程序自带的采集器采集文章(怎么通过nginx来屏蔽网络爬虫的危害，nginx服务器屏蔽)

优采云发布时间: 2021-11-02 12:08

　　2019-3-27 10:6:13 网络爬虫对服务器的危害，nginx服务器屏蔽网络爬虫采集器

　　网络上有很多恶心的鬼程序爬虫，日日夜夜采集他人网站，把别人的劳动成果当成自己的。想到这些不受欢迎的爬虫，相信很多站长都心痒痒的，但也无计可施。

　　网络爬虫的缺点：

　　采集器频繁的爬取影响了网站的正常运行，特别是对于低配置的服务器，那个可怜的虚拟空间的流量可能很快就会耗尽。网站这种经常打不开或者打开很慢的类型，除了本身服务器配置不好，往往是网络采集器造成的。

　　每一个网站通常都会遇到很多非搜索引擎爬虫。这些爬虫大多用于内容采集或初学者编写的内容。它们与搜索引擎爬虫不同，没有频率。控制往往会消耗大量服务器资源，造成带宽浪费。下面介绍如何通过nginx拦截网络爬虫。

　　经常在网上看到seo或者站长朋友使用robots.txt文件的User-Agent配合Disallow命令实现拦截。指导某人在网站的根目录下创建robots.txt文件，并写了一堆指令禁止不受欢迎的爬虫。我满心欢喜，以为屏蔽效果就达到了，目的就达到了。事实上，事实并非如此。首先我们要明白，robots.txt只是网络机器人（或蜘蛛）的爬行条约。请注意，这只是一项条约。欢迎哪些爬虫爬取？

　　此类条约实际上不具有约束力。爬虫是否遵守这些条约是另一回事。对于爬虫中的绅士（常规搜索引擎）来说真的很有效。他们来到网站之后，通常会检查机器人。.txt 文件，老老实实按照站长的规则抓取网页，但是对那些采集爬虫有效吗？可以肯定的是：无效，他们完全忽略robots.txt，他们只需要网站的内容，而且，当你看到那些明确指定为不可抓取的网页时，你会加倍努力采集既然不允许爬行，也许有什么好东西？

　　所以robots.txt不是*敏*感*词*，可以防君子，防小人。但也不是不可能，作为领先的web服务器：Apache和nginx其实是有屏蔽策略的，关键是能不能用。下面是我之前单位使用的一个禁止策略，可以拦截采集的一些程序。现在把代码放在下面，操作方法：找到nginx.conf配置文件，把下面的代码放到服务器中。

　　1

　　2

　　3

　　4

　　#禁止爬虫工具和无关搜索引擎

　　if($http_user_agent~*(Scrapy|Curl|HttpClient|python|phantomjs|EtaoSpider|HuihuiSpider|WochachaSpider|GwdangSpider|YYSpider|MJ12bot|^$)){

　　返回403；

　　}

　　结果是这样的：

　　1

　　2

　　3

　　4

　　5

　　6

　　7

　　8

　　9

　　10

　　服务器

　　{

　　#禁止爬虫工具和无关搜索引擎

　　if($http_user_agent~*(Scrapy|Curl|HttpClient|python|phantomjs|EtaoSpider|HuihuiSpider|WochachaSpider|GwdangSpider|YYSpider|MJ12bot|^$)){

　　返回403；

　　}

　　#下面是其他配置项

　　}

　　保存配置文件并使用命令行：

　　1

　　systemctlrestartnginx

　　重启nginx服务生效。

　　其他方法：

　　1. 基于程序本身防止爬行：作为爬虫程序，爬行行为就是爬取页面的源文件，比如爬取一个静态页面的html代码，可以用jquery模仿写html，这种方法伪装页面很难被抓取，但是这种方法对程序员的要求很高。

　　2.基于iptables和shell脚本：可以定义nginx的access.log的策略。比如定义1分钟并发连接数超过30个ips就是非法的。如果ip不在白名单中，加iptables策略块当然，这种的缺点是会有“伤害”。细粒度的策略越小，“伤害”就越大。粒度越大，效果越差。此外，还有类似的第三方工具fail2ban。做过滤器和演员来记录或阻止一些有害操作的 ip。但是，很难准确拒绝特定爬虫地址（如网易、有道）的抓取行为，因为您无法准确知道这些特定的爬虫IP地址（如网易、有道），下面是我的定位方法，但是发现屏蔽错误是ip库不准确造成的。注意：不推荐使用封ip入口的方法。当iptables列表长度为65535时，会满，服务器崩溃。

　　这篇文章是一个灵感，它只能处理一般的网络采集程序。我们与网络爬虫的斗争才刚刚开始。更多信息请关注数据。

　　标签：什么是网络爬虫以及如何防止网络爬虫被非搜索引擎爬虫禁止采集程序发布：云计算数据栏 | 类别：日常维护 | 评论：0 | 浏览：

　　数据条-为您提供免备案的虚拟空间，国外主机，独立IP空间，高速稳定，支持包月付款。高防云服务器月付98元起，美国VPS月付98元起，香港云服务器月付55元起，高防CDN月付298元起，香港物理服务器月付起698元，韩国服务器租用月付98元起，最低动态IP为78/月，省去备案的麻烦，数据栏带你进入免备案时代。

　　留言：

　　◎欢迎参与讨论，请在此发表您的看法，交流您的看法。

　　搜索

　　产品购买入口

　　网站类别

　　文章存档

　　链接

　　车站标志入口

　　Powered By 站长信息中心站长信息中心为您提供各类站长信息、站长信息，我们的宗旨是为广大站长服务。您将在这里获得最新、最全面、最专业的行业资讯和网站施工技术文档！

0

2021-11-02

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站程序自带的采集器采集文章(怎么通过nginx来屏蔽网络爬虫的危害，nginx服务器屏蔽)

0 个评论

发起人

AI时代内容工厂

网站程序自带的采集器采集文章(怎么通过nginx来屏蔽网络爬虫的危害，nginx服务器屏蔽)

0 个评论

发起人

相关问题