网站内容抓取工具(Robots.txt蜘蛛的使用方法和使用蜘蛛使用技巧)
优采云 发布时间: 2022-02-17 05:01网站内容抓取工具(Robots.txt蜘蛛的使用方法和使用蜘蛛使用技巧)
Robots.txt 是存储在站点根目录中的纯文本文件。虽然设置简单,但功能强大。可以指定搜索引擎蜘蛛只抓取指定的内容,也可以禁止搜索引擎蜘蛛抓取网站的部分或全部内容。
指示:
Robots.txt 文件应该放在 网站 根目录中,并且应该可以通过 Internet 访问。
例如:如果您的 网站 地址是 then,则该文件必须能够被打开并查看内容。
格式:
用户代理:
它用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中,如果有多个User-agent记录表明存在多个搜索引擎蜘蛛,它们将受到该协议的限制。对于这个文件,至少有一个 User-agent 记录。如果此项的值设置为 *,则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中,“User-agent:*”只能有一条记录。
不允许:
它用于描述不想被访问的 URL。此 URL 可以是完整路径或部分 URL。Robot 不会访问任何以 Disallow 开头的 URL。
例子:
示例 1:“Disallow:/help”表示 /help.html 和 /help/index.html 都不允许被搜索引擎蜘蛛抓取。
示例2:“Disallow:/help/”表示允许搜索引擎蜘蛛抓取/help.html,但不允许抓取/help/index.html。
例3:如果Disallow记录为空,则表示网站的所有页面都允许被搜索引擎抓取。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎蜘蛛都开放以供抓取。
#:Robots.txt 协议中的注释字符。
综合示例:
示例一:禁止所有搜索引擎蜘蛛通过“/robots.txt”爬取“/bin/cgi/”目录、“/tmp/”目录和/foo.html文件。设置方法如下:
用户代理: *
禁止:/bin/cgi/
禁止:/tmp/
禁止:/foo.html
例2:通过“/robots.txt”只允许某个搜索引擎抓取,而禁止其他搜索引擎抓取。例如,只允许名为“slurp”的搜索引擎蜘蛛爬取,而不允许其他搜索引擎蜘蛛爬取“/cgi/”目录下的内容。设置方法如下:
用户代理: *
禁止:/cgi/
用户代理:slurp
不允许:
示例3:禁止任何搜索引擎抓取我的网站,设置方法如下:
用户代理: *
不允许: /
示例4:只禁止某个搜索引擎爬取我的网站 例如:只禁止名为“slurp”的搜索引擎蜘蛛爬取,设置方法如下:
用户代理:slurp
不允许: /
更多参考资料(英文)