网站被采集怎么办 一招制服!
优采云 发布时间: 2020-08-28 20:01网站被采集怎么办 一招制服!
A5联盟
前几天我搜索我网站内容的时侯,发现有很多非法网站同时更新, 我点击进去发觉是一些非法的网站,但只能在对方网站顶部找到少量的广告信息, 并没有哪些实际内容。
我仔细查看了对方的源代码,发现对方隐藏了网站内容。他用这样的方式可以误导搜索引擎,让搜索引擎给其不错的排行,同时又能在访客面前隐藏自己小偷小摸的行为。
我第一时间想到了是不是网站被黑?
所以我更改了网站FTP,数据库,管理员帐号等信息后,又更新了新文章,隔几小时后发觉对方还是能顺利更新我网站的文章。这就奇怪了,难道是服务器被黑?我又仔细查看了服务器,没发觉哪些异常。
最后想到是不是可能被采集?
所以我把网站开通了访问日志功能,等了半天之后,我打开几M的日志查看,仔细一查就发觉了采集器的IP,
我把对方的IP屏蔽之后,从此对方再也没和我的网站同步更新。
如何能快速的发觉,并且一招制服采集你网站的歹徒呢?
方法十分简单,你只须要查看那个IP访问你最新文章,然后查看这种IP,其中有异常的就肯定是采集你网站的。
比如你更新一两篇新文章,你的新文章ID是 /123.htm ,半天时间内访问你新文章/123.htm 的常常就这么几个IP,然后分别查看这几个IP都访问了什么页面,流量是否正常。
比如有的IP是国外IP,只访问了几个正常页面,流量占用太小,那她们就是正常的访客。
而象这类英国IP 207.46.13.* 就不正常。
第一,他是英国IP,就算是真实访问也不是我的意向客户。
第二,采集小偷的网站服务器在英国,而这个IP也在新加坡,那他肯定就是采集IP。
第三,他做非法网站不可能用国外服务器,一来英国服务器成本低,二来可以避免法律风险。
第四,访问页面太多,占用流量比较大。
发现了采集器的IP, 如何屏蔽采集器的IP段呢?
下图是我屏蔽了采集器的IP后,状态码是403,就证明屏蔽成功。
如果你的linux服务器,只须要在.htaccess里这样写就行
order allow,deny
Deny from 127.0.0
allow from all
举例,如果你要屏蔽的IP段比较多,可以这样写
order allow,deny
Deny from 68.180.230
Deny from 40.77.167
allow from all
通过这样的方式就可以完全避免采集你网站的歹徒, 对方发觉自己未能采集成功,就会另选目标。如果每位站长都晓得这样的方式,那么互联网环境将会纯净许多。