很好的网站生成静态页面防止采集的策略和方法

优采云发布时间: 2021-07-15 06:01

　　六、只允许通过本站页面查看，如：Request.ServerVariables("HTTP_REFERER")

　　缺点：影响搜索引擎收录

　　采集Countermeasure：不知道能不能模拟一下网页的来源。 . . 目前我没有这个方法对应的采集countermeasures

　　建议：目前没有好的改进建议

　　评论：对于希望搜索引擎产生流量的站长，建议不要使用此方法。不过这个方法对于防止一般的采集程序还是有点效果的。

　　从上面可以看出，目前常用的反采集的方法要么对搜索引擎收录影响较大，要么反采集的效果就不好，并不会达到反采集的效果。那么，有没有有效的方法可以在不影响搜索引擎收录的情况下防止采集？那请继续往下看！

　　从我上面提到的采集principle可以看出，大部分采集程序都是基于采集的分析规则，比如分析分页文件名规则，分析页面代码规则。

　　一、pagination 文件名规则防止采集对策

　　采集器的大部分依赖分析分页文件名的规则来进行批量多页采集。如果别人找不到你的分页文件的文件名规则，那么别人就无法对你的网站进行批量多页采集。

　　如何实施：

　　我觉得用MD5加密分页文件名是更好的方法。说到这个，有人会说你用MD5加密分页文件名。其他人也可以模拟你的加密规则，根据这个规则得到你的分页文件。名字。

　　我想指出的是，当我们对页面的文件名进行加密时，不要只对文件名的变化部分进行加密

　　如果I代表分页的页码，那么我们不应该这样加密：page_name=Md5(I,16)&".htm"

　　最好在要加密的页码后加一个或多个字符，如：page_name=Md5(I&"任何一个或几个字母",16)&".htm"

　　因为MD5无法解密，别人看到的会议页面的字母是MD5加密的结果，所以加法者不知道你跟在我后面的字母是什么，除非他使用暴力**** MD5，但它是不现实。

　　二、page 代码规则防止采集对策

　　如果我们说我们的内容页面没有代码规则，那么其他人就无法从您的代码中提取他们需要的内容片段。所以我们要防止采集的步骤就是让代码变得不规则。

　　如何实施：

　　随机化对方需要提取的标签

　　1、自定义多个网页模板。每个 Web 模板中的重要 HTML 标记都不同。页面内容呈现时，随机选择网页模板。有些页面使用CSS+DIV布局，有些页面使用表格布局。方法有点麻烦。对于一个内容页面，需要多做几个模板页面，但是防止采集本身就是一件很麻烦的事情。多加一个模板可以起到防止采集的作用，这对很多人来说。这一切都是值得的。

　　2、如果觉得上面的方法太麻烦，可以把网页中重要的HTML标签随机化。

　　你做的网页模板越多，html代码越随意，对方分析内容代码时就越麻烦。当对方专门为你的网站写一个采集策略的时候，难度就越大。在这个时候，绝大多数人都会因为懒惰而退缩，所以采集others网站数据~~~我们来说说吧。目前大部分人都是用别人来开发@k15。 @程序去采集数据，开发采集程序去采集数据的人毕竟是少数。

　　给大家一些简单的想法：

　　1、使用客户端脚本显示对数据重要但对搜索引擎不重要的内容采集

　　2、将一页数据分成N页展示，这也是增加采集难度的一种方式

　　3、使用更深的连接，因为大多数采集程序只能从采集到网站内容的前3层。如果内容在更深的连接层，也可以避免被采集。但是，这可能会给客户带来浏览不便。如：

　　大多数网站是首页----内容索引页----内容页

　　如果你改成：

　　首页----内容索引分页----内容页入口----内容页

　　注意：最好在内容页入口处添加自动跳转到内容页的代码

　　其实只要第一步防采集（加密分页文件名规则），防采集的效果就已经不错了。建议同时使用两个反采集方法，给采集器增加采集的难度，让他们退出。

0

2021-07-15

网站内容策略

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

很好的网站生成静态页面防止采集的策略和方法

0 个评论

发起人

AI时代内容工厂

很好的网站生成静态页面防止采集的策略和方法

0 个评论

发起人

相关问题