搜索引擎优化seo每天一贴(控制页面的抓取、索引是SEO优化网站结构时经常需要用到的技术)

优采云发布时间: 2021-11-30 21:13

　　控制页面爬取和索引是SEO优化网站结构时经常用到的技术。常用工具包括：

　　这些工具都有自己特定的应用场景，但都是用来控制网站的内部结构的。它们很容易混淆，经常需要一起使用。SEO 必须准确理解这些工具的机制和原理。, 否则很容易出错。

　　这篇文章讨论了机器人文件。

　　机器人文件的作用

　　robots文件是放置在域名（或子域名）根目录下的UTF8编码的纯ASCII文本文件，文件名固定为robots.txt（全部小写），用于通知搜索引擎，网站哪些部分可以爬取，哪些部分禁止。robots.txt 只对它所在的域名（或子域名）、协议和端口号起作用。

　　在抓取网站页面之前，搜索引擎蜘蛛会先查看robots.txt的内容，哪些页面可以抓取，哪些页面被站长禁止。当然，是否遵守robots文件的规则是有意识的，有些坏蜘蛛不遵守，站长也没办法，比如采集的内容和网站的克隆@>。

　　因此，robots.txt 文件是网站管理员禁止搜索引擎抓取某些页面的指令。但是需要注意的是，页面不被抓取，并不代表页面不会被索引和收录，这是两个概念。具体可参考爬取、爬取、索引的概念介绍帖。

　　如何编写机器人文件

　　Robots 文件的每一行都收录一个字段、一个冒号和一个值。标准格式为：

　　：

　　意思是可以加一个空格，但不是必须的，通常建议加这个空格，这样更容易阅读。

　　这是写一些评论的另一种选择。

　　通常robots文件中的记录通常以User-agent开头，后面跟着几行Disallow和Allow。User-agent指定这条记录用于哪个搜索引擎蜘蛛，Disallow指定禁止爬取的文件或目录，Allow指定允许爬取的文件或记录。

　　所有搜索引擎支持的机器人文件记录包括：

　　禁止 - 告诉蜘蛛不要抓取某些文件或目录。例如，以下代码将阻止所有蜘蛛抓取所有网站文件：

　　用户代理： *

　　不允许： /

　　允许 - 告诉蜘蛛某些文件应该被抓取。Allow 和 Disallow 一起使用来告诉蜘蛛不会抓取大部分目录，而只会抓取其中的一部分。比如下面的代码会让蜘蛛不去抓取ab目录下的其他文件，而只抓取cd目录下的文件：

　　用户代理： *

　　禁止：/ab/

　　允许：/ab/cd

　　$Wildcard - 匹配 URL 末尾的字符。例如，以下代码将允许蜘蛛访问带有 .htm 后缀的 URL：

　　用户代理： *

　　允许：.htm$

　　*通配符-告诉蜘蛛匹配任何字符。例如，下面这段代码将禁止所有蜘蛛抓取所有 htm 文件：

　　用户代理： *

　　禁止：/*.htm

　　Sitemaps location-告诉蜘蛛你的网站地图在哪里，格式为：

　　机器人文件的注意事项

　　另外要提醒大家的是，robots.txt文件不需要存在，返回404错误，表示允许蜘蛛爬取所有内容。但是爬取robots.txt文件的时候会出现超时等错误，可能导致搜索引擎无法收录网站，因为蜘蛛不知道robots.txt文件是否存在存在或其中有什么内容。确认文件不存在是不一样的。

　　另外，如果robots.txt文件不存在，而404页面中收录一些网址，可能会导致搜索引擎将404页面的内容误认为是robots文件的内容，造成不可预知的后果。因此，即使你想打开所有搜索引擎蜘蛛抓取所有内容，最好放一个robots文件，即使它是一个空文件。

　　机器人文件检测

　　写入robots文件后，如果不确定是否写入正确，可以使用官方搜索引擎工具进行检查验证。比如百度资源平台的robots文件验证工具

　　输入网址后，验证工具会告诉您是否允许抓取该网址。

　　掌握robots文件的使用和编写是SEO的基本功。当页面没有被收录或收录突然掉线时，robots文件也是最先检查的。

0

2021-11-30

搜索引擎优化seo每天一贴

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化seo每天一贴(控制页面的抓取、索引是SEO优化网站结构时经常需要用到的技术)

0 个评论

发起人

AI时代内容工厂

搜索引擎优化seo每天一贴(控制页面的抓取、索引是SEO优化网站结构时经常需要用到的技术)

0 个评论

发起人

相关问题