不用采集规则就可以采集(实用的网站防止被镜像/反代，防采集方法)

优采云发布时间: 2021-09-01 05:21

　　28

　　2021 年 2 月

　　网站防止被镜像/反生成，以及采集方法总结Web WordPresstlanyan

　　网站被镜像，反代，或者网站被抄袭采集，所有努力写原创的作者都不希望这种事情发生在他们身上。如果抄袭采集网站排名高于原创，味道会更差。

　　本文总结了一些有用的网站防止被镜像/反转，以及防止采集的方法，希望对原创author有所帮助。

　　本文首次出现于：

　　网站Prevent 镜像/反代方法，防止网站直接反代

　　Nginx、Caddy 等网页软件具有强大的反向代理能力，通过 sub_filter 和 proxy_redirect 等命令可以轻松完美地镜像/反向一个网站。

　　有两种主要方法可以防止这种反生成：

　　1. 前端使用js判断域名是否合法，如果不是授权域名则重定向到原域名。以下是示例代码：

　　var domain = "你的网站域名"; // 例如 tlanyan.pp.ua

if (location.href.indexOf(domain) === -1) {

window.location = '要跳转的网址'; // 例如 https://tlanyan.pp.ua

}

　　有网友会担心这个js里面的域名也会被替换，达不到预期的效果。解决这个问题的方法就是对js进行混淆，比如使用JSFuck进行混淆。经过处理，几乎没人能理解代码的真正用意，更别提替换了。

　　2. 分析后端访问日志，将可疑IP加入黑名单或限制访问频率。确保你的网站被镜像/反转，并且对方仍然是受欢迎的网站，那么它的IP应该经常出现在访问日志中。分析网站日志，将可疑IP加入黑名单或限制访问，可以在一定程度上解决反生成问题。

　　在这两种方法中，强烈推荐第一种用于部署。它不仅简单有效，而且易于部署。

　　防止网站通过iframe反制

　　上面的方法可以防止被直接反转，但是可以通过嵌入iframe的方式绕过，也就是将网站嵌入到一个frame中。在这种情况下，无论你使用上面的js前端判断还是后端日志分析，一切正常。

　　防止网站被第三方通过frame方法反转的解决方案是：

　　1. 前端JS判断网页是否为顶级页面，如果不是则跳转。以下是判断是否为首页的js代码：

　　if (window.top != window.self) {

window.top.location = '你的网址'; // 例如 https://tlanyan.pp.ua

}

　　同样，建议在部署时先混淆这段代码。

　　2. 添加页面输出时不允许嵌套在frame中的header。有两个主要标头：旧的 X-FRAME-OPTIONS 和现代浏览器支持的 Content-Security-Policy。比如你可以在/etc/nginx/nginx.conf中添加说明：

　　# 一般来说写一个就足够，写两个更好

add_header X-FRAME-OPTIONS DENY;

add_header Content-Security-Policy "frame-ancestors 'none';";

　　或者写在 Apache 的 .htaccess 文件中：

　　Header set X-FRAME-OPTIONS "deny"

Header set Content-Security-Policy "frame-ancestors 'none';"

　　当浏览器看到这两个header时，它会拒绝在iframe中显示页面，从而防止这种镜像/反生成方法。

　　防止网站被镜像/反代总结

　　镜像/反转网站主要有两种方式，前后端结合可以防止这两种方式。如果你不希望你的网站被镜像/反转，最简单的方法就是混淆上面两段js代码，和页面一起输出，并设置X-FRAME-OPTIONS和Content-Security-策略标头。

　　网站防采集技能

　　一般来说，转贴和采集不同：看到好的文章就会分享转发，多为人工操作；采集是通过程序批量转发文章，不管文章质量如何。当然，即使转载，也要给出原文链接。这是对原作者的基本素质和尊重。

　　不幸的是，中国互联网上有很多抄袭采集文章，以每日头条和热点信息为代表。这些采集站使用了大量的软件采集others原创文章，并且排名很高，极大地推动了原创揭采集吸引流量的趋势。这种不给原文链接、不尊重原作者作品的采集行为需要防范和抵制。

　　网站防采集网站防采集技术方法总结

　　首先，对于网站其内容是由前端动态生成的，采集会比较困难，因为大多数采集程序不会运行JS脚本。如果你熟悉JAMstack构建网站，使用JS输出网页内容可以有效避免新手采集。值得注意的是，这种方式请做好后端API的鉴权和限流。

　　第二种方法与第一种类似：后端输出加密内容，前端js解密后显示原文。这个技巧对采集程序非常有效，但不影响正常用户访问。但是，应该注意的是，这种方法可能对 SEO 不友好。

　　第三种方法不能算是防止采集，但是可以强制采集网站带原文链接，小技巧。方法是在每个文章中随机添加带有原文链接的句子或段落，同时给元素添加一个不可见的类。注意invisible设置需要写在css类中，不能直接写在元素的style属性上，否则对方采集之后就看不到了。文章中有一段带有文章链接，但是页面上看不到。你能找到吗？

　　另外，很多采集软件可以自动替换已经采集的网址。如果你想保留你的网站的链接，你可以考虑使用短网址服务。

　　最后一个选项是检查网站访问日志并将可疑IP添加到黑名单。采集站一般会定期或频繁访问网站，根据这些特征可以发现可疑的IP。需要注意的是，如果网站支持RSS订阅，记得输出摘要而不是原文，否则采集太方便了。

　　网站防采集Summary

　　严格来说，没有明确有效的方法来防止采集。以上方法只是增加了采集的难度。从技术角度来看，反采集是一种战略对抗，需要不断投入，才能不断解决新的采集方法。

　　参考

　　1. 如何防止我的网站页面通过 iFrame 的 3rd 方网站框架加载

　　2. 如何防止您的网站被放置在框架中

　　3.如何防止网站内容被采集

　　4.注意Nginx的add_header指令

　　5. 使用 uBlacklist 净化 Google 搜索结果

　　AD：【*敏*感*词*推荐】Just My Socks，砌体搬运工官方代理服务，在高速CN2 GIA线上畅通外网，翻墙自动换IP

　　奖励和表扬(6)

0

2021-09-01

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用采集规则就可以采集(实用的网站防止被镜像/反代，防采集方法)

0 个评论

发起人

AI时代内容工厂

不用采集规则就可以采集(实用的网站防止被镜像/反代，防采集方法)

0 个评论

发起人

相关问题