2017搜索引擎优化规则(robots.txt蜘蛛网站的使用方法及使用技巧介绍-苏州安嘉)

优采云 发布时间: 2022-04-07 09:24

  2017搜索引擎优化规则(robots.txt蜘蛛网站的使用方法及使用技巧介绍-苏州安嘉)

  robots.txt是存放在网站根目录下的纯文本文件(文件名必须小写)。虽然设置简单,但功能强大。可以指定搜索引擎蜘蛛只抓取指定的内容,也可以禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

  指示:

  Robots.txt 文件应该放在 网站 根目录中,并且应该可以通过 Internet 访问。

  例如:如果您的 网站 地址是 then,则该文件必须能够被打开并查看内容。

  格式:

  用户代理:

  它用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中,如果有多个User-agent记录表明存在多个搜索引擎蜘蛛,它们将受到该协议的限制。对于这个文件,至少有一个 User-agent 记录。如果此项的值设置为 *,则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中,只能有“User-agent:*”这样的一条记录。

  不允许:

  它用于描述不想被访问的 URL。此 URL 可以是完整路径或部分 URL。Robot 不会访问任何以 Disallow 开头的 URL。

  例子:

  示例 1:“Disallow:/help”表示 /help.html 和 /help/index.html 都不允许被搜索引擎蜘蛛抓取。

  示例2:“Disallow:/help/”表示允许搜索引擎蜘蛛抓取/help.html,但不允许抓取/help/index.html。

  例3:如果Disallow记录为空,则表示网站的所有页面都允许被搜索引擎抓取。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎蜘蛛都开放以供抓取。

  #:Robots.txt 协议中的注释字符。

  综合示例:

  示例一:禁止所有搜索引擎蜘蛛通过“/robots.txt”爬取“/bin/cgi/”目录、“/tmp/”目录和/foo.html文件。设置方法如下:

  用户代理: *

  禁止:/bin/cgi/

  禁止:/tmp/

  禁止:/foo.html

  例2:通过“/robots.txt”只允许某个搜索引擎抓取,而禁止其他搜索引擎抓取。例如,只允许名为“slurp”的搜索引擎蜘蛛爬取,不允许其他搜索引擎蜘蛛爬取“/cgi/”目录下的内容。设置方法如下:

  用户代理: *

  禁止:/cgi/

  用户代理:slurp

  不允许:

  示例3:禁止任何搜索引擎抓取我的网站,设置方法如下:

  用户代理: *

  不允许: /

  示例4:只禁止某个搜索引擎爬取我的网站 例如:只禁止名为“slurp”的搜索引擎蜘蛛爬取,设置方法如下:

  用户代理:slurp

  不允许: /

  更多参考资料(英文)

  符号问题

  使用“*”主要是限制访问某个后缀的域名,禁止访问/html/目录下所有后缀为“.htm”的URL(包括子目录)。

  robots.txt 的写法如下:

  用户代理: *

  禁止:/html/*.htm

  使用“$”只允许访问某个目录下某个后缀的文件

  robots.txt 的写法如下:

  用户代理: *

  允许:.asp$

  不允许: /

  如果我们禁止索引网站中的所有动态页面(这里限制带“?”的域名,如index.asp?id=1)

  robots.txt 的写法如下:

  用户代理: *

  不允许: /*?*

  有时候,为了节省服务器资源,我们需要禁止各种搜索引擎对我们网站上的图片进行索引。这里的方法是使用“Disallow: /images/”直接屏蔽该文件夹。也可以采取直接屏蔽图片后缀名的方法。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线