网页新闻抓取( 通常哪些网站页面不应该被百度抓取呢?(图))

优采云 发布时间: 2022-03-28 01:15

  网页新闻抓取(

通常哪些网站页面不应该被百度抓取呢?(图))

  为什么要禁止自己的网页?哪些网站页面不应该被百度抓取?

  那么通常哪些网站页面不应该被百度抓取呢?比如网站里面有一定数量的重复内容,比如一些根据条件查询得到的结果页面,这在很多商场网站中是异常突出的。例如,由于一个产品的颜色、尺寸和型号的不同,会有很多相似的页面。这种页面对于用户来说可以有一定的体验,但是对于搜索引擎来说却很容易。他们因提供过多重复内容而受到处罚或降级。

  另外,网站中还有很多注册页面、备份页面、测试页面。这些页面只是为了让用户更好地操作网站和自己对网站的操作进行管理。由于这些页面内容比较单调,不适合百度对内容质量的要求。所以要尽量避免被百度收录爬取。下面就详细说说如何避免百度爬取内容页面。

  ,使用Flash技术显示不想被百度的内容收录

  这种方式不仅可以让用户获得更好的用户体验,而且百度也无法抓取这些内容,从而为用户实现更好的服务,同时不影响自身内容在百度的披露。

  二、使用robots脚本技术屏蔽相应内容

  目前,搜索引擎行业协会规定,机器人所描述的内容和链接被赋予收录爬取。所以对于网站上是否存在私有内容,以及管理页面、测试页面等内容,可以设置到这个脚本文件中。这不仅可以为这个网站提供很好的维护,还可以让那些看似垃圾的内容避免被百度抓取,反而会对这个网站产生巨大的负面影响。

  三、使用nofollow属性标签丢弃页面上不想成为收录的内容

  这种方法比较常见,可以屏蔽网页中的某个区域或者一段文字,从而提高你的网站内容的优化效果。使用这种技术,你只需要将需要屏蔽的内容的nofollow属性设置为True,就可以屏蔽该内容了。比如网站上有一些精彩的内容,但是这些内容也收录锚文本链接,所以为了防止这些锚文本外链窃取本站的权重,可以在这些内容上设置nofollow属性锚文本链接,让你享受这些内容给网站带来的流量,同时避免网站的权重被分流的危险。

  四、使用Meta Noindex和follow tags

  使用这种方法不仅可以防止被百度收录,还可以实现权重转移。当然具体怎么操作还要看站长的需求,但是使用这种方式屏蔽内容往往会浪费百度蜘蛛的抓取时间,从而影响优化体验,也就是说除非是不得已而为之。

  对于一些站长用来屏蔽的表单模式和Javascript技术,已经不可能完成这个任务了,因为随着百度蜘蛛智能水平的提高,这些技术编辑的内容已经可以被抓取了,而且从不久的将来,一旦Flash中的内容可以被抓取,如果要屏蔽网站内容,也应该避免这种方法。

  更多华旗商城产品介绍:自定义PHP网站构建婚纱摄影新模板中国山东网-枣庄软文写作技巧

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线