搜索指定网站内容(网站根目录下有没有robots.txt的纯文本文件的正确设置)

优采云 发布时间: 2021-10-24 06:12

  搜索指定网站内容(网站根目录下有没有robots.txt的纯文本文件的正确设置)

  有时,站长不希望某些页面被抓取,例如付费内容、测试阶段的网站等,为了确保页面不被抓取,您需要使用robots文件。那么如何正确设置呢?

  通常,搜索引擎蜘蛛访问网站时,会先检查网站根目录下是否有robots.txt文件。

  

  一、robots.txt 文件是什么

  用于指示搜索引擎禁止抓取网站某些内容或指定抓取网站某些内容。

  robots.txt 文件仅在您需要禁止抓取某些内容时才有意义。没有robots.txt或空文件意味着允许抓取网站上的所有内容。

  注意:由于服务器设置,当robots.txt文件不存在时,将返回状态码“200”而不是“404”状态码。这可能会导致搜索引擎误解 robots 文件。所以为了避免这种情况,即使你允许爬取网站上的所有内容,也必须在网站的根目录下放一个空的robots.txt文件。

  二、网站的robots.txt文件有什么优点

  三、robots.txt 基本语法

  User-agent:指定规则适用于哪个蜘蛛(如百度百度蜘蛛、谷歌谷歌机器人或其他搜索引擎)

  Allow:允许爬取什么 URL 路径

  Disallow:不允许抓取哪些 URL 路径

  通配符*代表所有搜索引擎

  注意:允许或禁止的目录或文件必须分开写,一行一行

  四、案例分析

  (1)禁止所有搜索引擎抓取任何页面

  用户代理:*

  禁止:/

  (2)允许所有搜索引擎访问网站

  用户代理:*

  禁止:

  (3)只禁止 Googlebot 访问您的 网站

  用户代理:Googlebot

  禁止:/

  (4) 只允许 Googlebot 访问您的 网站

  用户代理:Googlebot

  禁止:

  (5)禁止蜘蛛访问特定目录

  用户代理:*

  禁止:/a/

  禁止:/b/

<p>(6)允许访问特定目录下的一些URL:如:不抓取/a/目录下的其他目录和文件,但允许抓取/b/目录下的内容

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线