搜索引擎禁止的方式优化网站(网站页面被搜索引擎收录的越多越好.txt文本文件)

优采云发布时间: 2022-03-27 15:04

　　我们经常觉得网站页面被搜索引擎收录搜索的越多越好。这句话本身并没有什么问题，但是我们会发现很多网站页面我们不需要收录收录已经是收录了，而我们需要搜索引擎的页面收录不是收录。事实上，爬虫爬取我们的网站的时间是有限的。如何在有限的时间内爬取我们更多的页面，我们需要告诉爬虫爬取我们需要它爬取的内容页面，那么我们需要一个robots.txt文本文件。

　　什么是 robots.txt 文件

　　Robots 是网站和爬虫之间的协议。它告诉相应的爬虫简单直接的txt格式文本所允许的权限。也就是说，robots.txt是要在搜索引擎访问网站时查看的。的第一个文件。当搜索引擎蜘蛛访问一个站点时，它会首先检查该站点的根目录中是否存在 robots.txt。如果存在，搜索机器人会根据文件内容判断访问范围；如果该文件不存在，所有搜索蜘蛛将能够访问网站上没有密码保护的所有页面。

　　robots.txt 文件的放置位置

　　robots.txt 文件位于网站根目录中。当搜索引擎蜘蛛访问一个站点时，它首先检查 robots.txt 文件是否存在于站点的根目录中。如果搜索引擎蜘蛛找到这个文件，它会根据文件的内容来确定其访问权限的范围。

　　robots.txt 规则

　　此文件中的记录通常以一行或多行 User-agent 开头，然后是几行 Disallow 行。详细情况如下：

　　用户代理：

　　该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，则表示多个robots会受到该协议的限制。对于这个文件，至少有一条 User-agent 记录。如果此项的值设置为 *，则协议对任何机器人都有效。在“robots.txt”文件中，“User-agent:*”只能有一条记录。

　　不允许：

　　该项目的值用于描述不想被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如“Disallow:/help”将不允许搜索引擎访问/help.html和/help/index.html，而“Disallow:/help/”将允许机器人访问/help.html但不允许/help/index .html。任何 Disallow 记录为空，表示网站的所有部分都被允许访问。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件，则网站对所有搜索引擎机器人开放。

　　允许：

　　该项目的值用于描述您希望访问的一组 URL。与 Disallow 项类似，该值可以是完整路径，也可以是路径前缀。以 Allow 项的值开头的 URL 允许机器人访问。例如“允许：/baidu”允许机器人访问/baidu.htm、/baiducom.html、/baidu/com.html。网站的所有 URL 默认为 Allow，因此 Allow 通常与 Disallow 结合使用，以允许访问某些网页，同时禁止访问所有其他 URL。

　　robots.txt 语法

0

2022-03-27

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(网站页面被搜索引擎收录的越多越好.txt文本文件)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(网站页面被搜索引擎收录的越多越好.txt文本文件)

0 个评论

发起人

相关问题