不用采集规则就可以采集(绝大多数规则防采集而又不防搜索引擎从前面的我讲)

优采云发布时间: 2021-10-28 02:07

　　六、只允许通过本站页面查看，如：Request.ServerVariables("HTTP_REFERER")

　　缺点：影响搜索引擎收录

　　采集对策：不知道能不能模拟一下网页的来源。. . . 目前我没有针对这种方法的对策采集

　　建议：目前没有很好的改进建议

　　点评：建议靠搜索引擎拉流量的站长不要用这种方法。不过，这种方法对于防止一般的采集程序还是有些效果的。

　　从上面可以看出，目前常用的防止采集的方法要么对搜索引擎收录影响较大，要么采集效果不好，而且它将无法阻止采集的效果。那么，有没有有效的方法可以在不影响搜索引擎收录的情况下防止采集？那么请继续往下看，精彩的地方马上呈现给大家。

　　以下是我的反采集策略，反采集而不是反搜索引擎

　　从前面讲的采集的原理可以看出，大多数采集程序都是依赖于对采集的分析规则，比如分析分页文件名规则，分析页面代码。规则。

　　一、分页文件名规则防止采集对策

　　大部分采集器都是依靠分析分页文件名规则来进行批量多页采集。如果别人找不到你的分页文件的文件名规则，那么别人就不能对你的网站做批量多页采集。

　　执行：

　　我认为用MD5加密分页文件名是更好的方法。说到这个，有人会说你用MD5加密分页文件名。其他人也可以模仿你的加密规则，根据这个规则得到你的分页文件名。

　　我要指出的是，我们在对分页文件名进行加密时，不要只对文件名的变化部分进行加密

　　如果我代表页面的页码，那我们就不要这样加密了

　　page_name=Md5(I,16)&".htm"

　　最好在要加密的页码上跟上一个或多个字符，如：page_name=Md5(I&"any one or几个字母",16)&".htm"

　　因为MD5无法解密，别人看到的页面上的字母都是MD5加密的结果，所以加法器无法知道你跟在我后面的字母是什么，除非他对****MD5使用蛮力，但不是很实际的。

　　二、页面代码规则防止采集对策

　　如果我们说我们的内容页面没有代码规则，那么其他人将无法从您的代码中提取他们需要的内容片段。

　　所以我们要防止采集的一步就是让代码变得不规则。

　　执行：

　　随机化对方需要提取的token

　　1、自定义多个网页模板。每个网页模板中重要的 HTML 标签都不同。页面内容呈现时，随机选择网页模板。有些页面使用CSS+DIV布局，有些页面使用表格布局。这个方法有点麻烦。对于一个内容页面，需要多做几个模板页面，但是反采集本身就是一件很麻烦的事情。多做一个模板可以起到防采集的作用。对很多人来说，这是值得的。

　　2、如果觉得上面的方法太繁琐，可以将网页中重要的HTML标签随机化。

　　做的网页模板越多，html代码越随意，对方解析内容代码时就越麻烦。当对方专门为你写一个采集策略时，难度就越大。这时候，绝大多数人会因为懒惰而退却，所以可以采集其他网站数据~~~说说吧，目前大部分人都拿，毕竟是开发的人< @采集程序对采集数据的采集由别人开发，自己开发采集程序对采集数据的很少。

　　还有一些简单的想法给大家：

　　1、使用客户端脚本显示对数据重要但对搜索引擎不重要的内容

　　2、将一页数据分成N页展示，这也是增加采集难度的一种方式

　　3、使用更深层次的连接，因为大多数采集程序只能采集去网站内容的前3 层。如果内容处于更深层次的联系，也可以避免被采集。但是，这可能会给客户带来浏览不便。

　　喜欢：

　　网站大部分是首页----内容索引分页----内容页

　　如果将其更改为：

　　首页----内容索引分页----内容页入口----内容页

　　注：内容页的入口最好添加代码自动跳转到内容页

　　其实只要第一步防范采集（加密分页文件名规则），防范采集的效果就已经不错了。建议同时使用两种反采集方法。给采集的人增加采集的难度，让他们知道翻页难。

0

2021-10-28

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用采集规则就可以采集(绝大多数规则防采集而又不防搜索引擎从前面的我讲)

0 个评论

发起人

AI时代内容工厂

不用采集规则就可以采集(绝大多数规则防采集而又不防搜索引擎从前面的我讲)

0 个评论

发起人

相关问题