搜索指定网站内容(网站根目录下有没有robots.txt的纯文本文件的正确设置)

优采云发布时间: 2021-10-24 06:12

　　有时，站长不希望某些页面被抓取，例如付费内容、测试阶段的网站等，为了确保页面不被抓取，您需要使用robots文件。那么如何正确设置呢？

　　通常，搜索引擎蜘蛛访问网站时，会先检查网站根目录下是否有robots.txt文件。

　　一、robots.txt 文件是什么

　　用于指示搜索引擎禁止抓取网站某些内容或指定抓取网站某些内容。

　　robots.txt 文件仅在您需要禁止抓取某些内容时才有意义。没有robots.txt或空文件意味着允许抓取网站上的所有内容。

　　注意：由于服务器设置，当robots.txt文件不存在时，将返回状态码“200”而不是“404”状态码。这可能会导致搜索引擎误解 robots 文件。所以为了避免这种情况，即使你允许爬取网站上的所有内容，也必须在网站的根目录下放一个空的robots.txt文件。

　　二、网站的robots.txt文件有什么优点

　　三、robots.txt 基本语法

　　User-agent：指定规则适用于哪个蜘蛛（如百度百度蜘蛛、谷歌谷歌机器人或其他搜索引擎）

　　Allow：允许爬取什么 URL 路径

　　Disallow：不允许抓取哪些 URL 路径

　　通配符*代表所有搜索引擎

　　注意：允许或禁止的目录或文件必须分开写，一行一行

　　四、案例分析

　　(1）禁止所有搜索引擎抓取任何页面

　　用户代理：*

　　禁止：/

　　(2）允许所有搜索引擎访问网站

　　用户代理：*

　　禁止：

　　(3）只禁止 Googlebot 访问您的网站

　　用户代理：Googlebot

　　禁止：/

　　(4）只允许 Googlebot 访问您的网站

　　用户代理：Googlebot

　　禁止：

　　(5）禁止蜘蛛访问特定目录

　　用户代理：*

　　禁止：/a/

　　禁止：/b/

<p>(6）允许访问特定目录下的一些URL：如：不抓取/a/目录下的其他目录和文件，但允许抓取/b/目录下的内容

0

2021-10-24

搜索指定网站内容

0 个评论

要回复文章请先登录或注册