不用采集规则就可以采集(实用的网站防止被镜像/反代,防采集方法)

优采云 发布时间: 2021-09-01 05:21

  不用采集规则就可以采集(实用的网站防止被镜像/反代,防采集方法)

  28

  2021 年 2 月

  网站防止被镜像/反生成,以及采集方法总结Web WordPresstlanyan

  网站被镜像,反代,或者网站被抄袭采集,所有努力写原创的作者都不希望这种事情发生在他们身上。如果抄袭采集网站排名高于原创,味道会更差。

  本文总结了一些有用的网站防止被镜像/反转,以及防止采集的方法,希望对原创author有所帮助。

  本文首次出现于:

  网站Prevent 镜像/反代方法,防止网站直接反代

  Nginx、Caddy 等网页软件具有强大的反向代理能力,通过 sub_filter 和 proxy_redirect 等命令可以轻松完美地镜像/反向一个网站。

  有两种主要方法可以防止这种反生成:

  1. 前端使用js判断域名是否合法,如果不是授权域名则重定向到原域名。以下是示例代码:

  var domain = "你的网站域名"; // 例如 tlanyan.pp.ua

if (location.href.indexOf(domain) === -1) {

window.location = '要跳转的网址'; // 例如 https://tlanyan.pp.ua

}

  有网友会担心这个js里面的域名也会被替换,达不到预期的效果。解决这个问题的方法就是对js进行混淆,比如使用JSFuck进行混淆。经过处理,几乎没人能理解代码的真正用意,更别提替换了。

  2. 分析后端访问日志,将可疑IP加入黑名单或限制访问频率。确保你的网站被镜像/反转,并且对方仍然是受欢迎的网站,那么它的IP应该经常出现在访问日志中。分析网站日志,将可疑IP加入黑名单或限制访问,可以在一定程度上解决反生成问题。

  在这两种方法中,强烈推荐第一种用于部署。它不仅简单有效,而且易于部署。

  防止网站通过iframe反制

  上面的方法可以防止被直接反转,但是可以通过嵌入iframe的方式绕过,也就是将网站嵌入到一个frame中。在这种情况下,无论你使用上面的js前端判断还是后端日志分析,一切正常。

  防止网站被第三方通过frame方法反转的解决方案是:

  1. 前端JS判断网页是否为顶级页面,如果不是则跳转。以下是判断是否为首页的js代码:

  if (window.top != window.self) {

window.top.location = '你的网址'; // 例如 https://tlanyan.pp.ua

}

  同样,建议在部署时先混淆这段代码。

  2. 添加页面输出时不允许嵌套在frame中的header。有两个主要标头:旧的 X-FRAME-OPTIONS 和现代浏览器支持的 Content-Security-Policy。比如你可以在/etc/nginx/nginx.conf中添加说明:

  # 一般来说写一个就足够,写两个更好

add_header X-FRAME-OPTIONS DENY;

add_header Content-Security-Policy "frame-ancestors 'none';";

  或者写在 Apache 的 .htaccess 文件中:

  Header set X-FRAME-OPTIONS "deny"

Header set Content-Security-Policy "frame-ancestors 'none';"

  当浏览器看到这两个header时,它会拒绝在iframe中显示页面,从而防止这种镜像/反生成方法。

  防止网站被镜像/反代总结

  镜像/反转网站主要有两种方式,前后端结合可以防止这两种方式。如果你不希望你的网站被镜像/反转,最简单的方法就是混淆上面两段js代码,和页面一起输出,并设置X-FRAME-OPTIONS和Content-Security-策略标头。

  网站防采集技能

  一般来说,转贴和采集不同:看到好的文章就会分享转发,多为人工操作; 采集是通过程序批量转发文章,不管文章质量如何。当然,即使转载,也要给出原文链接。这是对原作者的基本素质和尊重。

  不幸的是,中国互联网上有很多抄袭采集文章,以每日头条和热点信息为代表。这些采集站使用了大量的软件采集others原创文章,并且排名很高,极大地推动了原创揭采集吸引流量的趋势。这种不给原文链接、不尊重原作者作品的采集行为需要防范和抵制。

  

  网站防采集网站防采集技术方法总结

  首先,对于网站其内容是由前端动态生成的,采集会比较困难,因为大多数采集程序不会运行JS脚本。如果你熟悉JAMstack构建网站,使用JS输出网页内容可以有效避免新手采集。值得注意的是,这种方式请做好后端API的鉴权和限流。

  第二种方法与第一种类似:后端输出加密内容,前端js解密后显示原文。这个技巧对采集程序非常有效,但不影响正常用户访问。但是,应该注意的是,这种方法可能对 SEO 不友好。

  第三种方法不能算是防止采集,但是可以强制采集网站带原文链接,小技巧。方法是在每个文章中随机添加带有原文链接的句子或段落,同时给元素添加一个不可见的类。注意invisible设置需要写在css类中,不能直接写在元素的style属性上,否则对方采集之后就看不到了。文章中有一段带有文章链接,但是页面上看不到。你能找到吗?

  另外,很多采集软件可以自动替换已经采集的网址。如果你想保留你的网站的链接,你可以考虑使用短网址服务。

  最后一个选项是检查网站访问日志并将可疑IP添加到黑名单。 采集站一般会定期或频繁访问网站,根据这些特征可以发现可疑的IP。需要注意的是,如果网站支持RSS订阅,记得输出摘要而不是原文,否则采集太方便了。

  网站防采集Summary

  严格来说,没有明确有效的方法来防止采集。以上方法只是增加了采集的难度。从技术角度来看,反采集是一种战略对抗,需要不断投入,才能不断解决新的采集方法。

  参考

  1. 如何防止我的网站页面通过 iFrame 的 3rd 方网站框架加载

  2. 如何防止您的网站被放置在框架中

  3.如何防止网站内容被采集

  4.注意Nginx的add_header指令

  5. 使用 uBlacklist 净化 Google 搜索结果

  AD:【*敏*感*词*推荐】Just My Socks,砌体搬运工官方代理服务,在高速CN2 GIA线上畅通外网,翻墙自动换IP

  奖励和表扬(6)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线