搜索引擎优化seo每天一贴(控制页面的抓取、索引是SEO优化网站结构时经常需要用到的技术)
优采云 发布时间: 2021-11-30 21:13搜索引擎优化seo每天一贴(控制页面的抓取、索引是SEO优化网站结构时经常需要用到的技术)
控制页面爬取和索引是SEO优化网站结构时经常用到的技术。常用工具包括:
这些工具都有自己特定的应用场景,但都是用来控制网站的内部结构的。它们很容易混淆,经常需要一起使用。SEO 必须准确理解这些工具的机制和原理。, 否则很容易出错。
这篇文章讨论了机器人文件。
机器人文件的作用
robots文件是放置在域名(或子域名)根目录下的UTF8编码的纯ASCII文本文件,文件名固定为robots.txt(全部小写),用于通知搜索引擎,网站 哪些部分可以爬取,哪些部分禁止。robots.txt 只对它所在的域名(或子域名)、协议和端口号起作用。
在抓取网站页面之前,搜索引擎蜘蛛会先查看robots.txt的内容,哪些页面可以抓取,哪些页面被站长禁止。当然,是否遵守robots文件的规则是有意识的,有些坏蜘蛛不遵守,站长也没办法,比如采集的内容和网站的克隆@>。
因此,robots.txt 文件是网站管理员禁止搜索引擎抓取某些页面的指令。但是需要注意的是,页面不被抓取,并不代表页面不会被索引和收录,这是两个概念。具体可参考爬取、爬取、索引的概念介绍帖。
如何编写机器人文件
Robots 文件的每一行都收录一个字段、一个冒号和一个值。标准格式为:
:
意思是可以加一个空格,但不是必须的,通常建议加这个空格,这样更容易阅读。
这是写一些评论的另一种选择。
通常robots文件中的记录通常以User-agent开头,后面跟着几行Disallow和Allow。User-agent指定这条记录用于哪个搜索引擎蜘蛛,Disallow指定禁止爬取的文件或目录,Allow指定允许爬取的文件或记录。
所有搜索引擎支持的机器人文件记录包括:
禁止 - 告诉蜘蛛不要抓取某些文件或目录。例如,以下代码将阻止所有蜘蛛抓取所有 网站 文件:
用户代理: *
不允许: /
允许 - 告诉蜘蛛某些文件应该被抓取。Allow 和 Disallow 一起使用来告诉蜘蛛不会抓取大部分目录,而只会抓取其中的一部分。比如下面的代码会让蜘蛛不去抓取ab目录下的其他文件,而只抓取cd目录下的文件:
用户代理: *
禁止:/ab/
允许:/ab/cd
$Wildcard - 匹配 URL 末尾的字符。例如,以下代码将允许蜘蛛访问带有 .htm 后缀的 URL:
用户代理: *
允许:.htm$
*通配符-告诉蜘蛛匹配任何字符。例如,下面这段代码将禁止所有蜘蛛抓取所有 htm 文件:
用户代理: *
禁止:/*.htm
Sitemaps location-告诉蜘蛛你的网站地图在哪里,格式为:
网站地图:
机器人文件的注意事项
另外要提醒大家的是,robots.txt文件不需要存在,返回404错误,表示允许蜘蛛爬取所有内容。但是爬取robots.txt文件的时候会出现超时等错误,可能导致搜索引擎无法收录网站,因为蜘蛛不知道robots.txt文件是否存在存在或其中有什么内容。确认文件不存在是不一样的。
另外,如果robots.txt文件不存在,而404页面中收录一些网址,可能会导致搜索引擎将404页面的内容误认为是robots文件的内容,造成不可预知的后果。因此,即使你想打开所有搜索引擎蜘蛛抓取所有内容,最好放一个robots文件,即使它是一个空文件。
机器人文件检测
写入robots文件后,如果不确定是否写入正确,可以使用官方搜索引擎工具进行检查验证。比如百度资源平台的robots文件验证工具
输入网址后,验证工具会告诉您是否允许抓取该网址。
掌握robots文件的使用和编写是SEO的基本功。当页面没有被收录或收录突然掉线时,robots文件也是最先检查的。