不用采集规则就可以采集(绝大多数规则防采集而又不防搜索引擎从前面的我讲)

优采云 发布时间: 2021-10-28 02:07

  不用采集规则就可以采集(绝大多数规则防采集而又不防搜索引擎从前面的我讲)

  六、只允许通过本站页面查看,如:Request.ServerVariables("HTTP_REFERER")

  缺点:影响搜索引擎收录

  采集 对策:不知道能不能模拟一下网页的来源。. . . 目前我没有针对这种方法的对策采集

  建议:目前没有很好的改进建议

  点评:建议靠搜索引擎拉流量的站长不要用这种方法。不过,这种方法对于防止一般的采集程序还是有些效果的。

  从上面可以看出,目前常用的防止采集的方法要么对搜索引擎收录影响较大,要么采集效果不好,而且它将无法阻止采集的效果。那么,有没有有效的方法可以在不影响搜索引擎收录的情况下防止采集?那么请继续往下看,精彩的地方马上呈现给大家。

  以下是我的反采集策略,反采集而不是反搜索引擎

  从前面讲的采集的原理可以看出,大多数采集程序都是依赖于对采集的分析规则,比如分析分页文件名规则,分析页面代码。规则。

  一、分页文件名规则防止采集对策

  大部分采集器都是依靠分析分页文件名规则来进行批量多页采集。如果别人找不到你的分页文件的文件名规则,那么别人就不能对你的网站做批量多页采集。

  执行:

  我认为用MD5加密分页文件名是更好的方法。说到这个,有人会说你用MD5加密分页文件名。其他人也可以模仿你的加密规则,根据这个规则得到你的分页文件名。

  我要指出的是,我们在对分页文件名进行加密时,不要只对文件名的变化部分进行加密

  如果我代表页面的页码,那我们就不要这样加密了

  page_name=Md5(I,16)&".htm"

  最好在要加密的页码上跟上一个或多个字符,如:page_name=Md5(I&"any one or几个字母",16)&".htm"

  因为MD5无法解密,别人看到的页面上的字母都是MD5加密的结果,所以加法器无法知道你跟在我后面的字母是什么,除非他对****MD5使用蛮力,但不是很实际的。

  二、页面代码规则防止采集对策

  如果我们说我们的内容页面没有代码规则,那么其他人将无法从您的代码中提取他们需要的内容片段。

  所以我们要防止采集的一步就是让代码变得不规则。

  执行:

  随机化对方需要提取的token

  1、自定义多个网页模板。每个网页模板中重要的 HTML 标签都不同。页面内容呈现时,随机选择网页模板。有些页面使用CSS+DIV布局,有些页面使用表格布局。这个方法有点麻烦。对于一个内容页面,需要多做几个模板页面,但是反采集本身就是一件很麻烦的事情。多做一个模板可以起到防采集的作用。对很多人来说,这是值得的。

  2、 如果觉得上面的方法太繁琐,可以将网页中重要的HTML标签随机化。

  做的网页模板越多,html代码越随意,对方解析内容代码时就越麻烦。当对方专门为你写一个采集策略时,难度就越大。这时候,绝大多数人会因为懒惰而退却,所以可以采集其他网站数据~~~说说吧,目前大部分人都拿,毕竟是开发的人< @采集 程序对采集 数据的采集 由别人开发,自己开发采集 程序对采集 数据的很少。

  还有一些简单的想法给大家:

  1、使用客户端脚本显示对数据重要但对搜索引擎不重要的内容

  2、 将一页数据分成N页展示,这也是增加采集难度的一种方式

  3、 使用更深层次的连接,因为大多数采集 程序只能采集 去网站 内容的前3 层。如果内容处于更深层次的联系,也可以避免被采集。但是,这可能会给客户带来浏览不便。

  喜欢:

  网站大部分是首页----内容索引分页----内容页

  如果将其更改为:

  首页----内容索引分页----内容页入口----内容页

  注:内容页的入口最好添加代码自动跳转到内容页

  其实只要第一步防范采集(加密分页文件名规则),防范采集的效果就已经不错了。建议同时使用两种反采集方法。给采集的人增加采集的难度,让他们知道翻页难。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线