免规则采集器列表算法(网站频繁访问的方法与之背道而驰的区别和方法有哪些)

优采云 发布时间: 2022-01-11 10:16

  免规则采集器列表算法(网站频繁访问的方法与之背道而驰的区别和方法有哪些)

  选项2,程序本身控制

  深入研究网站频繁访问和大量采集,主要是由于自己的网站程序原因。

  更改目录是一种比较简单的方法,但是非常有效。程序可以在一段时间内频繁访问某个IP时自动更改目录路径,从而减少外部机器人的频繁访问;

  提升网站本身的权限,比如需要注册ID访问,每个ID对应不同的权限;或者基于IP和时间相结合的访问控制;

  使用隐藏文本进行干扰,比如使用CSS DIsplay:none,或者直接将字体颜色与背景颜色进行匹配,这样采集用户需要大量时间来分隔文章,比如我的BBS论坛就是这样使用的;

  Javascript的干扰,目前很少有人用这种方法建站。估计大部分站长都担心不是收录的问题,考虑到搜索引擎解析Javascript不好;我的网站是一个相对替代的网站。使用JS作为输出,所有文字都在JS中;

  基于XML的页面很难被蜘蛛识别,尤其是在Javascript+Xml之后,使用了ajax技术,既保证了速度,又保护了有效数据。这种类型的 网站 还不能被蜘蛛使用。完整的分析,像官方体育彩票网站;

  选项 3,网站 结构

  网站结构可以极大地影响采集和搜索引擎收录。

  网站Pictured 早些年,一些很漂亮的韩国模板都是用图片做成的,比如IKdiary;

  flash结构网站,一些高超的flasher用flash绘制一些动态页面,简直就是蜘蛛的克星;

  使用80端口以外更安全的协议,比如HTTPS,虽然成本比较高,但也是防止匿名蜘蛛爬取的好办法;

  四、 后记

  从搜索引擎的角度来看,上述方法与它背道而驰。无论如何,我们的目的是做网站,做站就是做特色,保持自己的特色网站,把精华奉献给大家,这就是互联网的初衷. 并且随着互联网的日益壮大,采集已经成为一个普遍的问题,我已经尝试过摆脱它,并告诉大家蜘蛛爬取过多的解决方法。希望大家有更多的想法可以一起讨论。

  原发帖地址:

  从我前面提到的采集原理可以看出,大部分采集程序对采集都是依赖分析规则的,比如分析分页文件名规则,分析页面代码规则.

  一、分页文件名规则防范采集对策

  大多数采集器 依赖于分页文件名规则的分析,用于批量、多页采集。如果其他人找不到您的分页文件的文件名规则,那么其他人将无法批量处理您的网站 的多个页面采集。

  执行:

  我认为使用 MD5 加密分页文件名是一种更好的方法。有人会说你用MD5加密分页文件名,其他人可以模拟你的加密规则,根据这个规则得到你的分页文件名。

  我想指出的是,当我们加密分页文件名时,不要只加密文件名改变的部分

  如果我代表分页页码,那么我们就不会这样加密

  page_name=Md5(I,16)&".htm"

  最好在要加密的页码后面跟一个或多个字符,如:page_name=Md5(I&"任意一个或几个字母",16)&".htm"

  因为MD5无法解密,别人看到的会议页面的字母是MD5加密的结果,所以加法者无法知道你在我后面跟着的字母是什么,除非他用暴力去****MD5,但是不太现实。

  二、页面代码规则防范采集对策

  如果我们的内容页面没有代码规则,那么其他人就无法从您的代码中提取他们需要的内容片段。

  所以我们要在这一步防止采集,我们必须让代码变得不规则。

  执行:

  随机化交易对手需要提取的代币

  1、自定义多个网页模板。每个网页模板中的重要 HTML 标签是不同的。在呈现页面内容时,随机选择网页模板。有的页面使用CSS+DIV布局,有的页面使用表格布局。这种方法有点麻烦。对于一个内容页面,需要多做几个模板页面,但是防止采集本身就是一件很麻烦的事情。多做一个模板可以起到防止采集的作用。对于很多人来说,这是值得的。

  2、如果你觉得上面的方法太繁琐,把网页中重要的HTML标签随机化,也可以。

  你做的网页模板越多,html代码越乱,对方分析内容代码的时候就越麻烦,对方专门写一个采集策略的时候就更难了你的 网站。这个时候大部分人都会不顾一切的放弃,因为这个人比较懒,所以会采集others网站data~~~ 再说了,目前大部分人都在服用采集别人开发的程序去采集数据,自己开发采集程序去采集数据的毕竟是少数。

  这里有一些简单的想法给你:

  1、使用客户端脚本显示对数据重要的内容采集,而不是搜索引擎

  2、 将一页数据分成N页展示,也是增加采集难度的一种方式

  3、使用更深的连接,因为大部分采集程序只能采集到网站内容的前3层,如果内容在更深的连接层,你也可以避免成为 采集。但是,这可能会给客户带来不便。

  喜欢:

  大部分网站都是首页----内容索引分页----内容页

  如果改为:

  首页----内容索引分页----内容页入口----内容页

  注意:最好在内容页入口处添加自动转入内容页的代码

  其实只要做好第一步防范采集(加密分页文件名规则),防范采集的效果就已经不错了。建议同时使用两种反采集方法。为采集用户增加采集的难度,让他们在遇到困难时退出页面。

  道高一尺,魔高一尺,当网站真的不容易!所以,一般实力比较强的站长,编码能力都比较强。那些辛勤耕耘却未能自保的站长们吃尽苦头,一夜之间被别人抄袭;这是一个耻辱!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线