搜索引擎收录的robot.txt文件的作用是什么?
优采云 发布时间: 2021-05-02 05:46搜索引擎收录的robot.txt文件的作用是什么?
网站管理员知道,搜索引擎收录的网站页面通常不是我们想要访问的页面收录。这真的很烦人,尤其是网站的后台地址,一旦它是百度收录,那么网站的安全性就具有很大的隐患。此时,可以反映robot.txt文件的角色。只要文件中没有蜘蛛的访问权限,百度就不会收录您不想成为收录的页面,因此您可以集中网站的权重,这对于搜索引擎非常有用优化。
在介绍robot.txt的内容之前,让我们先讨论一下这是干什么用的。从字面上看,机器人代表机器人。从后缀名称来看,它是一个txt文件。通过该名称,可以看出该文件是搜索引擎蜘蛛机器人的文件。所谓的roots.txt文件是漫游器协议(也称为采集器协议,漫游器协议等)。这是您网站之后搜索引擎蜘蛛访问的第一个文件。通过此文件,搜索引擎蜘蛛可以了解网站可以对那些内容进行爬网,而不能对那些页面进行爬网。当然,我们也可以直接阻止蜘蛛的访问。在了解了该文件的用途之后,下面将详细介绍robots.txt文件的写入方法。
robots.txt语句:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
编写robots.txt的示例:
1、禁止所有搜索引擎访问网站的所有部分
User-agent: *
Disallow: /
2、禁止百度索引你的网站
User-agent: Baiduspider
Disallow: /
3、禁止Google索引你的网站
User-agent: Googlebot
Disallow: /
4、禁止除Google外的一切搜索引擎索引你的网站
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
5、禁止除百度外的一切搜索引擎索引你的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
6、禁止蜘蛛访问某个目录
(例如禁止admin\css\images被索引)
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
7、允许访问某个目录中的某些特定网址
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
在编写这些句子时,要特别注意的一件事是,冒号(:)和(/)之间必须有一个空格。如果未添加该空间,它将无法正常工作。通常将robots.txt文件放置在网站的根目录中,并且名称必须为robots.txt。
在阻止目录时,请注意,如果要防止对目录进行爬网,则必须注意目录名称中的“ /”。如果不带“ /”,则表示禁止访问该目录页面和目录下的页面,而带“ /”的上侧则表示要进入阻止目录下的内容页面。必须清楚地区分这两点。
为了使收录我们的内部页面更快地被搜索引擎使用,我们通常制作一张百度地图或Google地图。然后,使用Sitemap:+ 网站地图,此命令可以快速引导搜索引擎蜘蛛进入您的地图页面并获取网站的内页。当网站的死链接太多要处理时,我们可以使用机器人来阻止这些页面,以防止网站由于死链接而被百度降级。
在SEO优化过程中,了解和控制蜘蛛非常重要。关于robot.txt的编写,让我们先讨论一下,希望能帮助您编写有助于搜索引擎优化的robots.txt文件。