2017搜索引擎优化规则(robots.txt蜘蛛网站的使用方法及使用技巧介绍-苏州安嘉)

优采云发布时间: 2022-04-07 09:24

　　robots.txt是存放在网站根目录下的纯文本文件（文件名必须小写）。虽然设置简单，但功能强大。可以指定搜索引擎蜘蛛只抓取指定的内容，也可以禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

　　指示：

　　Robots.txt 文件应该放在网站根目录中，并且应该可以通过 Internet 访问。

　　例如：如果您的网站地址是 then，则该文件必须能够被打开并查看内容。

　　格式：

　　用户代理：

　　它用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中，如果有多个User-agent记录表明存在多个搜索引擎蜘蛛，它们将受到该协议的限制。对于这个文件，至少有一个 User-agent 记录。如果此项的值设置为 *，则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中，只能有“User-agent:*”这样的一条记录。

　　不允许：

　　它用于描述不想被访问的 URL。此 URL 可以是完整路径或部分 URL。Robot 不会访问任何以 Disallow 开头的 URL。

　　例子：

　　示例 1：“Disallow:/help”表示 /help.html 和 /help/index.html 都不允许被搜索引擎蜘蛛抓取。

　　示例2：“Disallow:/help/”表示允许搜索引擎蜘蛛抓取/help.html，但不允许抓取/help/index.html。

　　例3：如果Disallow记录为空，则表示网站的所有页面都允许被搜索引擎抓取。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件，则网站对所有搜索引擎蜘蛛都开放以供抓取。

　　#：Robots.txt 协议中的注释字符。

　　综合示例：

　　示例一：禁止所有搜索引擎蜘蛛通过“/robots.txt”爬取“/bin/cgi/”目录、“/tmp/”目录和/foo.html文件。设置方法如下：

　　用户代理： *

　　禁止：/bin/cgi/

　　禁止：/tmp/

　　禁止：/foo.html

　　例2：通过“/robots.txt”只允许某个搜索引擎抓取，而禁止其他搜索引擎抓取。例如，只允许名为“slurp”的搜索引擎蜘蛛爬取，不允许其他搜索引擎蜘蛛爬取“/cgi/”目录下的内容。设置方法如下：

　　用户代理： *

　　禁止：/cgi/

　　用户代理：slurp

　　不允许：

　　示例3：禁止任何搜索引擎抓取我的网站，设置方法如下：

　　用户代理： *

　　不允许： /

　　示例4：只禁止某个搜索引擎爬取我的网站例如：只禁止名为“slurp”的搜索引擎蜘蛛爬取，设置方法如下：

　　用户代理：slurp

　　不允许： /

　　更多参考资料（英文）

　　符号问题

　　使用“*”主要是限制访问某个后缀的域名，禁止访问/html/目录下所有后缀为“.htm”的URL（包括子目录）。

　　robots.txt 的写法如下：

　　用户代理： *

　　禁止：/html/*.htm

　　使用“$”只允许访问某个目录下某个后缀的文件

　　robots.txt 的写法如下：

　　用户代理： *

　　允许：.asp$

　　不允许： /

　　如果我们禁止索引网站中的所有动态页面（这里限制带“？”的域名，如index.asp?id=1）

　　robots.txt 的写法如下：

　　用户代理： *

　　不允许： /*？*

　　有时候，为了节省服务器资源，我们需要禁止各种搜索引擎对我们网站上的图片进行索引。这里的方法是使用“Disallow: /images/”直接屏蔽该文件夹。也可以采取直接屏蔽图片后缀名的方法。

0

2022-04-07

2017搜索引擎优化规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

2017搜索引擎优化规则(robots.txt蜘蛛网站的使用方法及使用技巧介绍-苏州安嘉)

0 个评论

发起人