网站内容抓取工具(Robots.txt蜘蛛的使用方法和使用蜘蛛使用技巧)

优采云发布时间: 2022-02-17 05:01

　　Robots.txt 是存储在站点根目录中的纯文本文件。虽然设置简单，但功能强大。可以指定搜索引擎蜘蛛只抓取指定的内容，也可以禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

　　指示：

　　Robots.txt 文件应该放在网站根目录中，并且应该可以通过 Internet 访问。

　　例如：如果您的网站地址是 then，则该文件必须能够被打开并查看内容。

　　格式：

　　用户代理：

　　它用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中，如果有多个User-agent记录表明存在多个搜索引擎蜘蛛，它们将受到该协议的限制。对于这个文件，至少有一个 User-agent 记录。如果此项的值设置为 *，则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中，“User-agent:*”只能有一条记录。

　　不允许：

　　它用于描述不想被访问的 URL。此 URL 可以是完整路径或部分 URL。Robot 不会访问任何以 Disallow 开头的 URL。

　　例子：

　　示例 1：“Disallow:/help”表示 /help.html 和 /help/index.html 都不允许被搜索引擎蜘蛛抓取。

　　示例2：“Disallow:/help/”表示允许搜索引擎蜘蛛抓取/help.html，但不允许抓取/help/index.html。

　　例3：如果Disallow记录为空，则表示网站的所有页面都允许被搜索引擎抓取。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件，则网站对所有搜索引擎蜘蛛都开放以供抓取。

　　#：Robots.txt 协议中的注释字符。

　　综合示例：

　　示例一：禁止所有搜索引擎蜘蛛通过“/robots.txt”爬取“/bin/cgi/”目录、“/tmp/”目录和/foo.html文件。设置方法如下：

　　用户代理： *

　　禁止：/bin/cgi/

　　禁止：/tmp/

　　禁止：/foo.html

　　例2：通过“/robots.txt”只允许某个搜索引擎抓取，而禁止其他搜索引擎抓取。例如，只允许名为“slurp”的搜索引擎蜘蛛爬取，而不允许其他搜索引擎蜘蛛爬取“/cgi/”目录下的内容。设置方法如下：

　　用户代理： *

　　禁止：/cgi/

　　用户代理：slurp

　　不允许：

　　示例3：禁止任何搜索引擎抓取我的网站，设置方法如下：

　　用户代理： *

　　不允许： /

　　示例4：只禁止某个搜索引擎爬取我的网站例如：只禁止名为“slurp”的搜索引擎蜘蛛爬取，设置方法如下：

　　用户代理：slurp

　　不允许： /

　　更多参考资料（英文）

0

2022-02-17

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取工具(Robots.txt蜘蛛的使用方法和使用蜘蛛使用技巧)

0 个评论

发起人

AI时代内容工厂

网站内容抓取工具(Robots.txt蜘蛛的使用方法和使用蜘蛛使用技巧)

0 个评论

发起人

相关问题