搜索引擎禁止的方式优化网站(网站页面被搜索引擎收录的越多越好.txt文本文件)

优采云 发布时间: 2022-03-27 15:04

  搜索引擎禁止的方式优化网站(网站页面被搜索引擎收录的越多越好.txt文本文件)

  我们经常觉得网站页面被搜索引擎收录搜索的越多越好。这句话本身并没有什么问题,但是我们会发现很多网站页面我们不需要收录收录已经是收录了,而我们需要搜索引擎的页面收录 不是 收录。事实上,爬虫爬取我们的网站的时间是有限的。如何在有限的时间内爬取我们更多的页面,我们需要告诉爬虫爬取我们需要它爬取的内容页面,那么我们需要一个robots.txt文本文件。

  

  什么是 robots.txt 文件

  Robots 是 网站 和爬虫之间的协议。它告诉相应的爬虫简单直接的txt格式文本所允许的权限。也就是说,robots.txt是要在搜索引擎访问网站时查看的。的第一个文件。当搜索引擎蜘蛛访问一个站点时,它会首先检查该站点的根目录中是否存在 robots.txt。如果存在,搜索机器人会根据文件内容判断访问范围;如果该文件不存在,所有搜索蜘蛛将能够访问 网站 上没有密码保护的所有页面。

  robots.txt 文件的放置位置

  robots.txt 文件位于 网站 根目录中。当搜索引擎蜘蛛访问一个站点时,它首先检查 robots.txt 文件是否存在于站点的根目录中。如果搜索引擎蜘蛛找到这个文件,它会根据文件的内容来确定其访问权限的范围。

  robots.txt 规则

  此文件中的记录通常以一行或多行 User-agent 开头,然后是几行 Disallow 行。详细情况如下:

  用户代理:

  该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个robots会受到该协议的限制。对于这个文件,至少有一条 User-agent 记录。如果此项的值设置为 *,则协议对任何机器人都有效。在“robots.txt”文件中,“User-agent:*”只能有一条记录。

  不允许:

  该项目的值用于描述不想被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如“Disallow:/help”将不允许搜索引擎访问/help.html和/help/index.html,而“Disallow:/help/”将允许机器人访问/help.html但不允许/help/index .html。任何 Disallow 记录为空,表示 网站 的所有部分都被允许访问。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎机器人开放。

  允许:

  该项目的值用于描述您希望访问的一组 URL。与 Disallow 项类似,该值可以是完整路径,也可以是路径前缀。以 Allow 项的值开头的 URL 允许机器人访问。例如“允许:/baidu”允许机器人访问/baidu.htm、/baiducom.html、/baidu/com.html。网站 的所有 URL 默认为 Allow,因此 Allow 通常与 Disallow 结合使用,以允许访问某些网页,同时禁止访问所有其他 URL。

  

  robots.txt 语法

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线