搜索引擎如何抓取网页(网站优化竞争日益加剧.txt协议文件有什么用呢?)

优采云 发布时间: 2021-10-18 05:02

  搜索引擎如何抓取网页(网站优化竞争日益加剧.txt协议文件有什么用呢?)

  很多建站系统,网站完成后,都在网站的根目录下,默认有robots.txt协议文件。在网站竞争日趋激烈的优化中,也最大限度地利用了建立之初没有优化因素的robots.txt文件。掌握它的写作,并为此做好准备。一:robots.txt […]

  很多建站系统,网站完成后,都在网站的根目录下,默认有robots.txt协议文件。在网站竞争日趋激烈的优化中,也最大限度地利用了建立之初没有优化因素的robots.txt文件。掌握它的写作,并为此做好准备。

  一:robots.txt协议文件有什么用?

  当搜索引擎访问一个网站时,访问的第一个文件是robots.txt。她告诉搜索引擎蜘蛛哪些网站页面可以爬取,哪些页面被禁止。从表面上看,这个功能是有限的。从搜索引擎优化的角度来看,集中权重的效果可以通过拦截页面来实现,这也是优化者最重要的地方。

  以一个seo站点为例,其robots.txt文件如图:

  

  二:网站设置robots.txt的几个原因。

  1:设置访问权限,保护网站安全。

  2:禁止搜索引擎抓取无效页面,将权重集中在主页面。

  三:如何规范的写协议?

  有几个概念需要掌握。

  User-agent表示定义的是哪个搜索引擎,比如User-agent:Baiduspider,定义了百度蜘蛛。

  Disallow 表示禁止访问。

  允许意味着运行访问。

  通过以上三个命令,你可以组合多种写法,允许哪个搜索引擎访问或者禁止哪个页面。

  4:robots.txt文件在哪里?

  这个文件必须放在网站的根目录下,并且有字母大小限制。文件名必须是小写字母。所有命令的第一个字母必须大写,其余的必须小写。并且命令后必须有一个英文字符空格。

  五:什么时候需要使用本协议?

  1:无用的页面。许多网站都有联系我们、用户协议等页面。这些页面在搜索引擎优化方面影响不大。这时候就需要使用Disallow命令来禁止这些页面被搜索引擎抓取。

  2:动态页面,企业类站点屏蔽动态页面,有利于网站安全。并且如果多个URL访问同一个页面,权重就会分散。因此,一般情况下,阻塞动态页面并保留静态或伪静态页面。

  3:网站后台页面,网站后台页面也可以归为无用页面。禁止收录百利而无一害。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线