搜索指定网站内容(网站根目录下有没有robots.txt的纯文本文件的正确设置)
优采云 发布时间: 2021-10-24 06:12搜索指定网站内容(网站根目录下有没有robots.txt的纯文本文件的正确设置)
有时,站长不希望某些页面被抓取,例如付费内容、测试阶段的网站等,为了确保页面不被抓取,您需要使用robots文件。那么如何正确设置呢?
通常,搜索引擎蜘蛛访问网站时,会先检查网站根目录下是否有robots.txt文件。
一、robots.txt 文件是什么
用于指示搜索引擎禁止抓取网站某些内容或指定抓取网站某些内容。
robots.txt 文件仅在您需要禁止抓取某些内容时才有意义。没有robots.txt或空文件意味着允许抓取网站上的所有内容。
注意:由于服务器设置,当robots.txt文件不存在时,将返回状态码“200”而不是“404”状态码。这可能会导致搜索引擎误解 robots 文件。所以为了避免这种情况,即使你允许爬取网站上的所有内容,也必须在网站的根目录下放一个空的robots.txt文件。
二、网站的robots.txt文件有什么优点
三、robots.txt 基本语法
User-agent:指定规则适用于哪个蜘蛛(如百度百度蜘蛛、谷歌谷歌机器人或其他搜索引擎)
Allow:允许爬取什么 URL 路径
Disallow:不允许抓取哪些 URL 路径
通配符*代表所有搜索引擎
注意:允许或禁止的目录或文件必须分开写,一行一行
四、案例分析
(1)禁止所有搜索引擎抓取任何页面
用户代理:*
禁止:/
(2)允许所有搜索引擎访问网站
用户代理:*
禁止:
(3)只禁止 Googlebot 访问您的 网站
用户代理:Googlebot
禁止:/
(4) 只允许 Googlebot 访问您的 网站
用户代理:Googlebot
禁止:
(5)禁止蜘蛛访问特定目录
用户代理:*
禁止:/a/
禁止:/b/
<p>(6)允许访问特定目录下的一些URL:如:不抓取/a/目录下的其他目录和文件,但允许抓取/b/目录下的内容