搜索引擎如何抓取网页(网站优化竞争日益加剧.txt协议文件有什么用呢？)

优采云发布时间: 2021-10-18 05:02

　　很多建站系统，网站完成后，都在网站的根目录下，默认有robots.txt协议文件。在网站竞争日趋激烈的优化中，也最大限度地利用了建立之初没有优化因素的robots.txt文件。掌握它的写作，并为此做好准备。一：robots.txt […]

　　很多建站系统，网站完成后，都在网站的根目录下，默认有robots.txt协议文件。在网站竞争日趋激烈的优化中，也最大限度地利用了建立之初没有优化因素的robots.txt文件。掌握它的写作，并为此做好准备。

　　一：robots.txt协议文件有什么用？

　　当搜索引擎访问一个网站时，访问的第一个文件是robots.txt。她告诉搜索引擎蜘蛛哪些网站页面可以爬取，哪些页面被禁止。从表面上看，这个功能是有限的。从搜索引擎优化的角度来看，集中权重的效果可以通过拦截页面来实现，这也是优化者最重要的地方。

　　以一个seo站点为例，其robots.txt文件如图：

　　二：网站设置robots.txt的几个原因。

　　1：设置访问权限，保护网站安全。

　　2：禁止搜索引擎抓取无效页面，将权重集中在主页面。

　　三：如何规范的写协议？

　　有几个概念需要掌握。

　　User-agent表示定义的是哪个搜索引擎，比如User-agent：Baiduspider，定义了百度蜘蛛。

　　Disallow 表示禁止访问。

　　允许意味着运行访问。

　　通过以上三个命令，你可以组合多种写法，允许哪个搜索引擎访问或者禁止哪个页面。

　　4：robots.txt文件在哪里？

　　这个文件必须放在网站的根目录下，并且有字母大小限制。文件名必须是小写字母。所有命令的第一个字母必须大写，其余的必须小写。并且命令后必须有一个英文字符空格。

　　五：什么时候需要使用本协议？

　　1：无用的页面。许多网站都有联系我们、用户协议等页面。这些页面在搜索引擎优化方面影响不大。这时候就需要使用Disallow命令来禁止这些页面被搜索引擎抓取。

　　2：动态页面，企业类站点屏蔽动态页面，有利于网站安全。并且如果多个URL访问同一个页面，权重就会分散。因此，一般情况下，阻塞动态页面并保留静态或伪静态页面。

　　3：网站后台页面，网站后台页面也可以归为无用页面。禁止收录百利而无一害。

0

2021-10-18

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册