网站robots.txt文件的配置和使用方法(一)

优采云 发布时间: 2021-06-07 20:23

  网站robots.txt文件的配置和使用方法(一)

  前言

  搜索引擎使用网络蜘蛛抓取网页内容并将其显示在相关搜索结果中。但是有些网页内容可能不会被搜索引擎收录收录,比如管理员后台。

  我们可以通过robots.txt文件来声明允许/禁止搜索引擎蜘蛛抓取某些目录或网页,从而限制收录搜索引擎的范围。

  本文介绍如何配置和使用网站的robots.txt文件,以及如何编写robots.txt文件。

  什么是 robots.txt

  robots.txt 是存放在网站 根目录下的纯文本文件。用于告诉网络蜘蛛本站哪些内容允许爬取,哪些内容不允许爬取。

  搜索引擎蜘蛛访问网站时,也会先检查网站的robots.txt文件,获取网站允许的爬取范围。

  需要注意的是,robots.txt 只是一个习惯规则,不是强制性的。部分搜索引擎不支持,无法保证网页内容会/不会被抓取。

  robots.txt 文件设置规则#格式和位置

  

  

  #命令语法说明

  每条记录由field:value组成,如Sitemap:。

  一组记录的例子:

  # 禁止谷歌抓取网站 news 标签下的所有内容

user-agent: googlebot

disallow: /tag/news

  

  

  编写实用 robots.txt 的示例和说明

  如果网站没有robots.txt文件,可以手动创建并上传到网站root目录;即使没有网页需要禁止搜索引擎收录,也建议添加一个空的robots.txt文件。

  请注意文中“只”、“允许”、“禁止”的区别!

  

  

  路径匹配示例:(↓Google Developers 截图)

  

  

  Tips#常用搜索引擎蜘蛛(机器人)名称

  如果不知道蜘蛛的名字,可以查看一些大网站的写法参考,比如/robots.txt。

  # robots.txt *敏*感*词*

  

  

  #相关资料总结

  网站的robots.txt文件相当于网站的声明,用于通知访问蜘蛛“网站中想/不想被搜索引擎收录的网页指定和内容路径”。

  它对大多数搜索引擎有效,但也有一些搜索引擎不支持它。您可以使用元标记强制禁止它们(请参阅机器人元标记和 X-Robots-Tag HTTP 标头规范)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线