网站内容抓取(为什么要禁抓自己的网页呢?如何规避百度内容页)

优采云 发布时间: 2022-02-18 06:14

  网站内容抓取(为什么要禁抓自己的网页呢?如何规避百度内容页)

  为什么要禁止爬取自己的网页?这似乎有点混乱,因为对于你的网站,很明显百度搜索引擎爬的越多越好,因为暴露在互联网上的机会也更多。但实际上,一个网站通常会有很多不应该被百度抓取的内页,因为这些网站页面不仅不利于自身优化,甚至会产生不良影响。

  那么通常哪些网站页面不应该被百度抓取呢?比如网站里面有一定的重复内容,比如一些根据条件查询得到的结果页面,这在很多商场里很常见网站异常突出。例如,由于一个产品的颜色、尺寸和型号的不同,会有很多相似的页面。这种页面对于用户来说可以有一定的体验,但是对于搜索引擎来说却很容易。他们因提供过多重复内容而受到处罚或降级。

  此外,网站中还有很多注册页面、备份页面和测试页面。这些页面只是为了让用户更好地操作网站和自己对网站的操作进行管理。由于这些页面内容比较单调,不适合百度对内容质量的要求。所以要尽量避免被百度收录爬取。下面就详细说说如何避免百度爬取内容页面。

  一、利用Flash技术展示不想被百度的内容收录

  这种方式不仅可以让用户获得更好的用户体验,而且百度也无法抓取这些内容,从而为用户实现更好的服务,同时不影响自身内容在百度的披露。

  二、使用robots脚本技术屏蔽相应内容

  目前,搜索引擎行业协会规定,机器人所描述的内容和链接被赋予收录爬取。所以对于网站上是否存在私有内容,以及管理页面、测试页面等内容,可以设置到这个脚本文件中。这不仅可以为这个网站提供很好的维护,还可以让那些看似垃圾的内容避免被百度抓取,反而对这个网站产生巨大的负面影响。

  三、使用nofollow属性标签丢弃页面上不想成为收录的内容

  这种方法比较常见,可以屏蔽网页中的某个区域或者一段文字,从而提高你的网站内容的优化效果。使用这种技术,你只需要将需要屏蔽的内容的nofollow属性设置为True,就可以屏蔽该内容了。比如网站上有一些精彩的内容,但是这些内容也收录锚文本链接,所以为了防止这些锚文本外链窃取本站的权重,可以在这些内容上设置nofollow属性锚文本链接,让你享受这些内容给网站带来的流量,同时避免网站的权重被分流的危险。

  四、使用Meta Noindex和follow tags

  使用这种方法不仅可以防止被百度收录,还可以实现权重转移。当然具体怎么操作还要看站长的需求,但是用这种方式屏蔽内容往往会浪费百度蜘蛛的抓取时间,从而影响优化体验,也就是说,除非你不得不。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线