很好的网站生成静态页面防止采集的策略和方法
优采云 发布时间: 2021-07-15 06:01很好的网站生成静态页面防止采集的策略和方法
六、只允许通过本站页面查看,如:Request.ServerVariables("HTTP_REFERER")
缺点:影响搜索引擎收录
采集Countermeasure:不知道能不能模拟一下网页的来源。 . . 目前我没有这个方法对应的采集countermeasures
建议:目前没有好的改进建议
评论:对于希望搜索引擎产生流量的站长,建议不要使用此方法。不过这个方法对于防止一般的采集程序还是有点效果的。
从上面可以看出,目前常用的反采集的方法要么对搜索引擎收录影响较大,要么反采集的效果就不好,并不会达到反采集的效果。那么,有没有有效的方法可以在不影响搜索引擎收录的情况下防止采集?那请继续往下看!
从我上面提到的采集principle可以看出,大部分采集程序都是基于采集的分析规则,比如分析分页文件名规则,分析页面代码规则。
一、pagination 文件名规则防止采集对策
采集器的大部分依赖分析分页文件名的规则来进行批量多页采集。如果别人找不到你的分页文件的文件名规则,那么别人就无法对你的网站进行批量多页采集。
如何实施:
我觉得用MD5加密分页文件名是更好的方法。说到这个,有人会说你用MD5加密分页文件名。其他人也可以模拟你的加密规则,根据这个规则得到你的分页文件。名字。
我想指出的是,当我们对页面的文件名进行加密时,不要只对文件名的变化部分进行加密
如果I代表分页的页码,那么我们不应该这样加密:page_name=Md5(I,16)&".htm"
最好在要加密的页码后加一个或多个字符,如:page_name=Md5(I&"任何一个或几个字母",16)&".htm"
因为MD5无法解密,别人看到的会议页面的字母是MD5加密的结果,所以加法者不知道你跟在我后面的字母是什么,除非他使用暴力**** MD5,但它是不现实。
二、page 代码规则防止采集对策
如果我们说我们的内容页面没有代码规则,那么其他人就无法从您的代码中提取他们需要的内容片段。所以我们要防止采集的步骤就是让代码变得不规则。
如何实施:
随机化对方需要提取的标签
1、 自定义多个网页模板。每个 Web 模板中的重要 HTML 标记都不同。页面内容呈现时,随机选择网页模板。有些页面使用CSS+DIV布局,有些页面使用表格布局。方法有点麻烦。对于一个内容页面,需要多做几个模板页面,但是防止采集本身就是一件很麻烦的事情。多加一个模板可以起到防止采集的作用,这对很多人来说。这一切都是值得的。
2、如果觉得上面的方法太麻烦,可以把网页中重要的HTML标签随机化。
你做的网页模板越多,html代码越随意,对方分析内容代码时就越麻烦。当对方专门为你的网站写一个采集策略的时候,难度就越大。在这个时候,绝大多数人都会因为懒惰而退缩,所以采集others网站数据~~~我们来说说吧。目前大部分人都是用别人来开发@k15。 @程序去采集数据,开发采集程序去采集数据的人毕竟是少数。
给大家一些简单的想法:
1、使用客户端脚本显示对数据重要但对搜索引擎不重要的内容采集
2、将一页数据分成N页展示,这也是增加采集难度的一种方式
3、使用更深的连接,因为大多数采集程序只能从采集到网站内容的前3层。如果内容在更深的连接层,也可以避免被采集。但是,这可能会给客户带来浏览不便。如:
大多数网站是首页----内容索引页----内容页
如果你改成:
首页----内容索引分页----内容页入口----内容页
注意:最好在内容页入口处添加自动跳转到内容页的代码
其实只要第一步防采集(加密分页文件名规则),防采集的效果就已经不错了。建议同时使用两个反采集方法,给采集器增加采集的难度,让他们退出。