网站内容抓取工具(Robots.txt蜘蛛的使用方法和使用蜘蛛使用技巧)

优采云 发布时间: 2022-02-17 05:01

  网站内容抓取工具(Robots.txt蜘蛛的使用方法和使用蜘蛛使用技巧)

  Robots.txt 是存储在站点根目录中的纯文本文件。虽然设置简单,但功能强大。可以指定搜索引擎蜘蛛只抓取指定的内容,也可以禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

  指示:

  Robots.txt 文件应该放在 网站 根目录中,并且应该可以通过 Internet 访问。

  例如:如果您的 网站 地址是 then,则该文件必须能够被打开并查看内容。

  格式:

  用户代理:

  它用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中,如果有多个User-agent记录表明存在多个搜索引擎蜘蛛,它们将受到该协议的限制。对于这个文件,至少有一个 User-agent 记录。如果此项的值设置为 *,则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中,“User-agent:*”只能有一条记录。

  不允许:

  它用于描述不想被访问的 URL。此 URL 可以是完整路径或部分 URL。Robot 不会访问任何以 Disallow 开头的 URL。

  例子:

  示例 1:“Disallow:/help”表示 /help.html 和 /help/index.html 都不允许被搜索引擎蜘蛛抓取。

  示例2:“Disallow:/help/”表示允许搜索引擎蜘蛛抓取/help.html,但不允许抓取/help/index.html。

  例3:如果Disallow记录为空,则表示网站的所有页面都允许被搜索引擎抓取。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎蜘蛛都开放以供抓取。

  #:Robots.txt 协议中的注释字符。

  综合示例:

  示例一:禁止所有搜索引擎蜘蛛通过“/robots.txt”爬取“/bin/cgi/”目录、“/tmp/”目录和/foo.html文件。设置方法如下:

  用户代理: *

  禁止:/bin/cgi/

  禁止:/tmp/

  禁止:/foo.html

  例2:通过“/robots.txt”只允许某个搜索引擎抓取,而禁止其他搜索引擎抓取。例如,只允许名为“slurp”的搜索引擎蜘蛛爬取,而不允许其他搜索引擎蜘蛛爬取“/cgi/”目录下的内容。设置方法如下:

  用户代理: *

  禁止:/cgi/

  用户代理:slurp

  不允许:

  示例3:禁止任何搜索引擎抓取我的网站,设置方法如下:

  用户代理: *

  不允许: /

  示例4:只禁止某个搜索引擎爬取我的网站 例如:只禁止名为“slurp”的搜索引擎蜘蛛爬取,设置方法如下:

  用户代理:slurp

  不允许: /

  更多参考资料(英文)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线