2017搜索引擎优化规则(robots.txt蜘蛛网站的使用方法及使用技巧介绍-苏州安嘉)
优采云 发布时间: 2022-04-07 09:242017搜索引擎优化规则(robots.txt蜘蛛网站的使用方法及使用技巧介绍-苏州安嘉)
robots.txt是存放在网站根目录下的纯文本文件(文件名必须小写)。虽然设置简单,但功能强大。可以指定搜索引擎蜘蛛只抓取指定的内容,也可以禁止搜索引擎蜘蛛抓取网站的部分或全部内容。
指示:
Robots.txt 文件应该放在 网站 根目录中,并且应该可以通过 Internet 访问。
例如:如果您的 网站 地址是 then,则该文件必须能够被打开并查看内容。
格式:
用户代理:
它用于描述搜索引擎蜘蛛的名称。在“Robots.txt”文件中,如果有多个User-agent记录表明存在多个搜索引擎蜘蛛,它们将受到该协议的限制。对于这个文件,至少有一个 User-agent 记录。如果此项的值设置为 *,则该协议对任何搜索引擎蜘蛛都有效。在“Robots.txt”文件中,只能有“User-agent:*”这样的一条记录。
不允许:
它用于描述不想被访问的 URL。此 URL 可以是完整路径或部分 URL。Robot 不会访问任何以 Disallow 开头的 URL。
例子:
示例 1:“Disallow:/help”表示 /help.html 和 /help/index.html 都不允许被搜索引擎蜘蛛抓取。
示例2:“Disallow:/help/”表示允许搜索引擎蜘蛛抓取/help.html,但不允许抓取/help/index.html。
例3:如果Disallow记录为空,则表示网站的所有页面都允许被搜索引擎抓取。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎蜘蛛都开放以供抓取。
#:Robots.txt 协议中的注释字符。
综合示例:
示例一:禁止所有搜索引擎蜘蛛通过“/robots.txt”爬取“/bin/cgi/”目录、“/tmp/”目录和/foo.html文件。设置方法如下:
用户代理: *
禁止:/bin/cgi/
禁止:/tmp/
禁止:/foo.html
例2:通过“/robots.txt”只允许某个搜索引擎抓取,而禁止其他搜索引擎抓取。例如,只允许名为“slurp”的搜索引擎蜘蛛爬取,不允许其他搜索引擎蜘蛛爬取“/cgi/”目录下的内容。设置方法如下:
用户代理: *
禁止:/cgi/
用户代理:slurp
不允许:
示例3:禁止任何搜索引擎抓取我的网站,设置方法如下:
用户代理: *
不允许: /
示例4:只禁止某个搜索引擎爬取我的网站 例如:只禁止名为“slurp”的搜索引擎蜘蛛爬取,设置方法如下:
用户代理:slurp
不允许: /
更多参考资料(英文)
符号问题
使用“*”主要是限制访问某个后缀的域名,禁止访问/html/目录下所有后缀为“.htm”的URL(包括子目录)。
robots.txt 的写法如下:
用户代理: *
禁止:/html/*.htm
使用“$”只允许访问某个目录下某个后缀的文件
robots.txt 的写法如下:
用户代理: *
允许:.asp$
不允许: /
如果我们禁止索引网站中的所有动态页面(这里限制带“?”的域名,如index.asp?id=1)
robots.txt 的写法如下:
用户代理: *
不允许: /*?*
有时候,为了节省服务器资源,我们需要禁止各种搜索引擎对我们网站上的图片进行索引。这里的方法是使用“Disallow: /images/”直接屏蔽该文件夹。也可以采取直接屏蔽图片后缀名的方法。