搜索引擎如何抓取网页(网站优化竞争日益加剧.txt协议文件有什么用呢?)
优采云 发布时间: 2021-10-18 05:02搜索引擎如何抓取网页(网站优化竞争日益加剧.txt协议文件有什么用呢?)
很多建站系统,网站完成后,都在网站的根目录下,默认有robots.txt协议文件。在网站竞争日趋激烈的优化中,也最大限度地利用了建立之初没有优化因素的robots.txt文件。掌握它的写作,并为此做好准备。一:robots.txt […]
很多建站系统,网站完成后,都在网站的根目录下,默认有robots.txt协议文件。在网站竞争日趋激烈的优化中,也最大限度地利用了建立之初没有优化因素的robots.txt文件。掌握它的写作,并为此做好准备。
一:robots.txt协议文件有什么用?
当搜索引擎访问一个网站时,访问的第一个文件是robots.txt。她告诉搜索引擎蜘蛛哪些网站页面可以爬取,哪些页面被禁止。从表面上看,这个功能是有限的。从搜索引擎优化的角度来看,集中权重的效果可以通过拦截页面来实现,这也是优化者最重要的地方。
以一个seo站点为例,其robots.txt文件如图:
二:网站设置robots.txt的几个原因。
1:设置访问权限,保护网站安全。
2:禁止搜索引擎抓取无效页面,将权重集中在主页面。
三:如何规范的写协议?
有几个概念需要掌握。
User-agent表示定义的是哪个搜索引擎,比如User-agent:Baiduspider,定义了百度蜘蛛。
Disallow 表示禁止访问。
允许意味着运行访问。
通过以上三个命令,你可以组合多种写法,允许哪个搜索引擎访问或者禁止哪个页面。
4:robots.txt文件在哪里?
这个文件必须放在网站的根目录下,并且有字母大小限制。文件名必须是小写字母。所有命令的第一个字母必须大写,其余的必须小写。并且命令后必须有一个英文字符空格。
五:什么时候需要使用本协议?
1:无用的页面。许多网站都有联系我们、用户协议等页面。这些页面在搜索引擎优化方面影响不大。这时候就需要使用Disallow命令来禁止这些页面被搜索引擎抓取。
2:动态页面,企业类站点屏蔽动态页面,有利于网站安全。并且如果多个URL访问同一个页面,权重就会分散。因此,一般情况下,阻塞动态页面并保留静态或伪静态页面。
3:网站后台页面,网站后台页面也可以归为无用页面。禁止收录百利而无一害。