网站防采集的五种方式

优采云 发布时间: 2020-08-26 11:35

  网站防采集的五种方式

  

  一、选择有防采集功能的程序,例如帝国cms有防采集功能,能起到一定的防采集效果。

  二、采集器要采集你的网站就必须剖析你的网页结构,不管是多老练的采集器还是多牛逼的采集软件都绕不过这一步,因为采集的内容要入库就得跟采集器的网站匹配上。能采集的做的都是批量内容,所以采集一般都是采集列表页,很少有人为了采集某站的某一篇文章而单独构建一个采集节点,我们要做的就是降低采集器剖析列表页网页结构的难度,防右键、F12、ctrl+shift+i、手动点击开发者工具代码如下:

  

//禁用右键(防止右键查看源代码)

window.oncontextmenu=function(){return false;}

//禁止任何键盘敲击事件(防止F12和shift+ctrl+i调起开发者工具)

window.onkeydown = window.onkeyup = window.onkeypress = function () {

window.event.returnValue = false;

return false;

}

//如果用户在工具栏调起开发者工具,那么判断浏览器的可视高度和可视宽度是否有改变,如有改变则关闭本页面

var h = window.innerHeight,w=window.innerWidth;

window.onresize = function () {

if (h!= window.innerHeight||w!=window.innerWidth){

window.close();

window.location = "about:blank";

}

}

  view-source防不了,我们可以压缩html代码降低剖析代码难度,模板建站的注意不要压缩模板代码,否则前台内容出不来,用cdn的可以缓存栏目页静态url,缓存后代码就被压缩了。

  三、及时封禁可疑ip。

  采集ip通常以C段方式出现,在百度统计里采集ip的访问都是未知、一页,且间隔时间短,我们可以三天查看两次百度统计数据找出那些ip,中午一次、晚上一次,有人会说这样太麻烦了,看统计数据要会看,实时访客注重看三个指标来源、入口页面和访问时长,排查一页数据也就几秒钟,要是一条一条过,干脆别干活了,就盯住数据看。

  发现可疑ip立刻封禁,没用cdn的源站封禁,用了cdn的最好在节点和源站都封禁,采集ip的封禁在时间上要尽可能长一些,防止之后再采集,关于怎么封禁ip你们可以看文章“封禁ip的两种方式”。

  四、禁止UA为空或富含PHP的恳求,具体代码请查看文章“网站被镜像前后我们应当做哪些”添加,这段代码我没有测试过,具体疗效未知。

  五、在文章上下工夫,比如我的文章“详解rss订阅(如何在网站添加rss订阅功能和怎样订阅自己喜欢的网站)”流量你们都太艳羡,但是没人采集也没人剽窃,为啥你们搜索瞧瞧就晓得。

  采取了前面五种方式可以最大程度地防采集,但若果采集器把你的页面扒出来或则有足够的耐心剖析你的网页结构,那就没办了,不过我们可以在不同js文件里加不同的非本域访问跳转自己网站的js代码,虽然这种js代码能被找下来,但我想到此大部分采集器早已舍弃了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线