网站被镜像之后的处理方法,百度将镜像网站黑名单

优采云 发布时间: 2021-08-20 07:14

  

网站被镜像之后的处理方法,百度将镜像网站黑名单

  

  网站被镜像是什么意思?被镜像后有什么后果?

  网站被镜像意味着网上出现了一个和你的网站一模一样的复制的网站,除了域名外,一切都一模一样。

  网站在两种情况下被镜像:

  您网站的完整镜像,除了网址不同外,完全从您的网站复制而来。

  另一个是*敏*感*词*站,它会抓取您的网页内容,但当您实际查看时,它会将其隐藏并显示他的广告。

  网站被镜像后,被镜像的网站仍然可以超越原来的网站的排名。原来的网站会遭受非常大的损失,排名和收录都是百度K站造成的。 @被清除发生。

  所以如果我们在日常网站维护中发现这种镜像网站,一定要及时处理,减少对我们网站正常运营的影响。

  网站被镜像后如何处理,

  方案一:网站镜像后,尽快在百度站长平台反馈。百度站长平台的解释是百度会自动识别一些恶意图片网站,但是如果你发现你的搜索词(比如你的网站名)已经被镜像,网站排名已经到达第一页,那么就需要尽快提交给百度站长,让百度把镜像网站放入mirror网站Blacklist。

  1、百度站长反馈中心:/feedback

  2、百度举报平台举报(如镜像网站有*敏*感*词*等违法内容,举报更有效)/jubao/(百度站长反馈时,需提交百度等相关资质证书,如百度快照截图、网站记录信息、域名证书等一些有力证明你网站的材料,提交后百度会回复。)

  方案二:使用.htaccess屏蔽镜像网站的ip和域名,空间设置只能通过域名访问,ip无法访问(镜像程序狗基本都是用程序爬网站ip进入镜像)

  如果网站mirror不是从整个站点复制过来的,而是通过解析完成的,那么你可以查询镜像网站的ip,拒绝服务器上的ip,或者使用你的服务器防御软件,比如如云锁、安全狗等被列入黑名单。如果你使用的是虚拟主机,那么你可以使用第三方防御,比如360网站卫士,百度云加速,也可以消除镜像网站。

  1.截获的IP

  将上面的文件命名为“ip.php”放在网站root目录下,然后我通过镜像网站URL访问www.***.com/ip.php,然后使用ip由上面的PHP程序生成我在.txt中得到了这个IP:

  

  104.194.16.230(美国)

  2.Block IP

  在htaccess中添加如下代码:

  拒绝来自 104.194.16.230

  当你再次使用镜像网址访问你的网站时,会报4.3错误。现在即使收录@有这个网址,也不会对你的网站有任何影响

  如果你的服务器是windows服务器,直接屏蔽ip即可。如果网站使用cdn,则需要让官方cdn技术帮你屏蔽。 LINUX主机也可以通过修改.htaccess来设置,这部分允许技术操作。

  方案三:将网站镜像转移到其他网站,例如:将我的网站镜像到一些*敏*感*词*的网站,对*敏*感*词*的网站几乎没有影响,但如果它确实,会很大网站的反馈声音比我们的更重要。

  将刚才的403错误页面设置为另一个网站 URL。方法是在htaccess代码中加入阻止IP的:

  错误文档 403 /

  这样,当您访问您的镜像网址时,您会发现它反映了百度新闻。后果可想而知。

  方案四:利用百度云或加速音乐隐藏真实的网站ip

  方案五:Server网站目录保护,网站其他脚本禁止运行,php和asp可以设置;

  如果对方是网站模板,同时批量处理采集网站信息怎么办?

  1、限制IP地址单位时间内的访问次数

  分析:普通人不可能一秒访问同一个网站5次,除非是程序访问。有了这个偏好,就只剩下搜索引擎爬虫和烦人的采集器了。

  缺点:一刀切,这也会阻止搜索引擎响应网站的收录@(不推荐)

  适用网站:不依赖搜索引擎的网站

  采集器会做什么:减少单位时间内的访问次数,降低采集效率

  2、shield ip

  分析:通过后台计数器记录访问者的ip和频率,人工分析访问记录,屏蔽可疑IP。 (最有效的方法)

  缺点:貌似没有缺点,就是站长有点忙

  适用网站:所有网站,站长可以知道哪些机器人是谷歌或百度

  采集器会怎么做:打游击战!使用ip代理采集改一次,但是会降低采集器的效率和网速(使用代理)。

  3、使用js加密网页内容

  注:这个方法我没接触过,不过好像是从别处传来的

  分析:不用分析,搜索引擎爬虫和采集器通杀

  适用网站:我真的很讨厌搜索引擎和采集器的网站

  采集器会这样:你太好了,你再好他也不会来接你了

  4、Hide 网站copyright 或者网页中一些随机的垃圾文字,这些文字样式写在css文件中

  分析:采集虽然无法阻止,但是采集之后的内容会填充你的网站版权声明或者一些垃圾文字,因为一般采集器不会也采集你的css文件,显示的文本没有样式。

  适用网站:所有网站

  采集器 会做什么:对于受版权保护的文本,易于处理,替换它。对于随机的垃圾文本,没办法,抓紧。

  5、用户登录可以访问网站content

  分析:搜索引擎爬虫不会为每一种这样的网站设计登录程序。听说采集器可以为某个网站设计一个模拟用户登录和提交表单行为。

  适用网站:我真的很讨厌搜索引擎,想屏蔽大部分采集器的网站

  采集器 会做什么:为用户登录的行为制作一个模块并提交表单

  6、使用脚本语言进行分页(隐藏分页)

  分析:再次,搜索引擎爬虫不会分析各种网站隐藏页面,影响搜索引擎的收录@。但是采集在写采集规则的时候,需要分析目标页面的代码,稍微懂脚本的人就会知道页面的真实链接地址。

  适用网站:不高度依赖搜索引擎的网站,以及采集你的人不懂脚本知识

  采集器会做什么:应该说采集器会做什么,反正他要分析你的网页代码,顺便分析你的分页脚本,不会多花时间。

  7、防盗链措施(只允许通过本站页面查看,如:Request.ServerVariables("HTTP_REFERER"))

  分析:ASP和PHP可以通过读取请求的HTTP_REFERER属性来判断请求是否来自网站,从而限制采集器,同时也限制了搜索引擎爬虫,严重影响了搜索引擎对网站的响应@部分反水蛭内容收录@。

  适用网站:我对网站搜索引擎收录@没有太多想法

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线