非常好的网站生成静态页面防采集策略与方式

优采云 发布时间: 2020-08-09 18:10

  六、只容许通过本站页面联接查看,如:Request.ServerVariables("HTTP_REFERER")

  弊端:影响搜索引擎对其收录

  采集对策:不知道能不能模拟网页来源。。。。目前我没有对应此方式的采集对策

  建议:目前没有好的改良建议

  评论:建议指望搜索引擎带流量的站长不要使用此技巧。不过此方式防通常的采集程序,还是有点疗效的。

  从以上可以看出,目前常用的防采集方法,要么会对搜索引擎收录有较大影响,要么防采集效果不好,起不到防采集的疗效。那么,还有没有一种有效防采集,而又不影响搜索引擎收录的方式呢?那就请继续往下看吧!

  从后面的我讲的采集原理你们可以看出,绝大多数采集程序都是靠剖析规则来进行采集的,如剖析分页文件名规则、分析页面代码规则。

  一、分页文件名规则防采集对策

  大部分采集器都是靠剖析分页文件名规则,进行批量、多页采集的。如果他人找不出你的分页文件的文件名规则,那么他人就难以对你的网站进行批量多页采集。

  实现方式:

  我觉得用MD5加密分页文件名是一个比较好的方式,说到这儿,有人会说,你用MD5加密分页文件名,别人按照此规则也可以模拟你的加密规则得到你的分页文件名。

  我要强调的是我们加密分页文件名时,不要只加密文件名变化的部份

  如果I代表分页的页脚,那么我们不要这样加密:page_name=Md5(I,16)&".htm"

  最好给要加密的页脚上再跟进一个或多个字符,如:page_name=Md5(I&"任意一个或几个字母",16)&".htm"

  因为MD5是难以反揭秘的,别人听到的会页字母是MD5加密后的结果,所以加人也难以晓得你在I前面跟进的字母是哪些,除非他用暴力****MD5,不过不太现实。

  二、页面代码规则防采集对策

  如果说我们的内容页面无代码规则,那么他人就难以从你的代码中提取她们所须要的一条条内容。所以我们要的这一步做到防采集,就要让代码无规则。

  实现方式:

  使对方须要提取的标记随机化

  1、定制多个网页模板,每个网页模板里的重要HTML标记不同,呈现页面内容时,随机选定网页模板,有的页面用CSS+DIV布局,有的页面用table布局,此方式是麻烦了点,一个内容页面,要多做几个模板页面,不过防采集本身就是一件太艰深的事情,多做一个模板,能起到防采集的作用,对很多人来说,都是值得的。

  2、如果嫌里面的方式太麻烦,把网页里的重要HTML标记随机化,也可以。

  做的网页模板越多,html代码越是随机化,对方剖析起内容代码时,就越麻烦,对方针对你的网站专门写采集策略时,难度就更大,在这个时侯,绝大部分人,都会知难而退,因为这此人就是由于懒,才会采集别人网站数据嘛~~~再说一下,目前大部分人都是拿他人开发的采集程序去采集数据,自己开发采集程序去采集数据的人虽然是少数。

  还有些简单的思路提供给你们:

  1、把对数据采集器重要,而对搜索引擎不重要的内容用客户端脚本显示

  2、把一页数据,分为N个页面显示,也是加强采集难度的方式

  3、用更深层的联接,因为目前大部分采集程序只能采集到网站内容的前3层,如果内容所在的联接层更深,也可以避免被采集。不过这样可能会给顾客导致浏览上的不便。如:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线