搜索引擎禁止的方式优化网站(做优化的朋友都知道网站的robots的目的是让搜索引擎知道)

优采云发布时间: 2021-09-03 11:00

　　做优化的朋友都知道网站的robots的目的是让搜索引擎知道我们哪些网站目录可以收录，哪些目录禁止收录。一般蜘蛛访问网站时，会先检查你的网站根目录下是否有robots文件。如果有，就会根据这个文件进行爬取和判断。如果没有robots，那么网站的所有页面都可能是收录，这会给网站带来安全隐患。

　　比如在百度上搜索“织梦内容管理系统V57_UTF8_SP1”，就会出现一堆带有织梦程序的后台地址，将后台暴露给他人，带来极大的安全隐患。

　　下面木子网先给大家介绍一下robots.txt是做什么的？

　　Robots.txt 基本上每个网站都可以使用，并且在网站的根目录下。任何人都可以直接输入路径打开查看内容，如。如上所述，这个文件的目的是告诉搜索引擎哪些页面可以爬取，哪些页面不应该爬取。

　　如何使用robots.txt

　　在网站root目录下创建一个文件，命名为robots.txt，文件名必须是这个！然后在里面设置规则。

　　比如我有一个博客，我想设置没有搜索引擎收录本站。只需在robots.txt中设置以下两行即可。

　　用户代理：*

　　禁止：/

　　如果你想限制搜索引擎访问我们的网站background admin目录，规则应该改为：

　　用户代理：*

　　禁止：/admin/

　　更多关于robots.txt的使用规则超出了本文的范围。详情可以阅读上一篇文章《网站Robots文件编写优化详解》。

　　通过上面的方法，我们可以禁止搜索引擎收录我们的后台页面，但矛盾的是，任何人都可以访问robots.txt文件，包括黑客。为了禁止搜索引擎，我们还向黑客泄露了隐私。

　　和上面的例子一样，我们在robots.txt中做了限制，以防止搜索引擎访问收录admin页面。但是这个robots.txt页面任何人都可以查看，所以黑客可以通过robots了解我们网站后端或者其他重要的目录结构。

　　有没有办法在不泄露后台地址和隐私目录的情况下，利用robots.txt的功能屏蔽搜索引擎访问？

　　是的，就是用星号（*）作为通配符，截取部分目录名。比如下面的后台地址是admin：

　　用户代理：*

　　禁止：/a*/

　　或者使用以下方法：

　　用户代理：*

　　禁止：/ad

　　关键在第二句，这将阻止搜索引擎访问任何以“ad”开头的文件和目录。为了防止别人猜到你的后台目录，这里截取的时间越短越好。当然，如果你的后台目录是admin，还是有人猜的，但是如果你把admin改成admadm呢？还有谁会知道？

　　综上所述，为了防止搜索引擎收录网站进入后端目录和其他私有目录，我们将在robots.txt文件中禁用这些路径。为了不让robots.txt中的内容泄露网站的背景和隐私，我们可以使用以上两种机器人编写方式。最后，为了防止黑客猜测真实路径，我们可以非常规地重命名这些敏感目录，例如添加特殊符号“@”。

　　好的，关于robots.txt防止网站background和隐私目录泄露给黑客，就介绍这么多，希望对大家有帮助，谢谢！

　　详解网站optimization的robots文件的编写

　　在网站优化过程中，很多站长朋友都遇到过这样的问题，不希望搜索引擎收录页面是收录，如果网站后台页面或者配置文件等收录，那么网站的安全就受到威胁了。这时候就体现了网站robots.txt文件的功能。我们只需要在文件中屏蔽蜘蛛的访问，这样搜索引擎就不会爬取这些页面，不仅可以减轻蜘蛛的爬行压力，还能集中网站的权重，这对网站也是非常有利的@优化。

　　在正式介绍robots.txt的标准写法之前，先介绍一下robots的使用。从书面解释来看，robots 是指机器人。从文件后缀来看，是一个txt文档。结合这两点，我们可以看到这个文件是给搜索引擎的蜘蛛机器人看的。所谓robots.txt文件就是Robots协议（也叫爬虫协议、robot协议等）。它是搜索引擎蜘蛛抓取的第一个文件。通过这个文件，蜘蛛可以了解到网站可以被爬取。无法抓取这些页面。当然，我们也可以直接屏蔽蜘蛛的访问。接下来，木子网络为大家详细介绍robots.txt文件的编写。

　　robots.txt 声明：

　　User-agent: * 其中*代表所有类型的搜索引擎，*是通配符

　　Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

　　Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

　　Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

　　禁止：/cgi-bin/*.htm 禁止访问 /cgi-bin/ 目录中所有后缀为“.htm”的 URL（包括子目录）。

　　Disallow: /*?* 禁止访问网站中所有收录问号 (?) 的 URL

　　Disallow: /.jpg$ 禁止抓取网络上所有 .jpg 格式的图片

　　Disallow: /ab/adc.html 禁止爬取ab文件夹下的adc.html文件。

　　Allow: 这里定义了 /cgi-bin/ 以允许爬取 cgi-bin 目录下的目录

　　Allow：这里定义了/tmp，允许爬取整个tmp目录

　　允许：.htm$ 只允许访问带有“.htm”后缀的 URL。

　　允许：.gif$ 允许抓取网页和 gif 格式的图像

　　站点地图：网站Map 告诉爬虫这个页面是网站Map

　　编写robots.txt的例子：

　　1、禁止所有搜索引擎访问网站的所有部分

　　用户代理：*

　　禁止：/

　　2、禁止百度索引你的网站

　　用户代理：百度蜘蛛

　　禁止：/

　　3、禁止 Google 将您的网站编入索引

　　用户代理：Googlebot

　　禁止：/

　　4、禁止除 Google 之外的所有搜索引擎将您的网站编入索引

　　用户代理：Googlebot

　　禁止：

　　用户代理：*

　　禁止：/

　　5、禁止百度以外的所有搜索引擎索引你的网站

　　用户代理：百度蜘蛛

　　禁止：

　　用户代理：*

　　禁止：/

　　6、禁止蜘蛛访问某个目录

　　（比如禁止admin\css\images被索引）

　　用户代理：*

　　禁止：/css/

　　禁止：/admin/

　　禁止：/images/

　　7、允许访问目录中的某些 URL

　　用户代理：*

　　允许：/css/my

　　允许：/admin/html

　　允许：/images/index

　　禁止：/css/

　　禁止：/admin/

　　禁止：/images/

　　robots.txt 常用措辞示例：

　　例如1.禁止所有搜索引擎访问网站的任何部分

　　用户代理：*

　　禁止：/

　　示例2.允许所有机器人访问

　　（或者你可以创建一个空文件“/robots.txt”）

　　用户代理：*

　　禁止：

　　或

　　用户代理：*

　　允许：/

　　例子3.只禁止百度蜘蛛访问你的网站

　　用户代理：百度蜘蛛

　　禁止：/

　　例子4.只允许百度蜘蛛访问你的网站

　　用户代理：百度蜘蛛

　　禁止：

　　用户代理：*

　　禁止：/

　　例子5.禁止蜘蛛访问特定目录

　　本例中网站有3个限制搜索引擎访问的目录，即robots不会访问这三个目录。需要注意的是，每个目录必须单独声明，不能写成“Disallow: /cgi-bin/ /tmp/”。

　　用户代理：*

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　示例6. 允许访问特定目录中的某些 URL

　　用户代理：*

　　允许：/cgi-bin/see

　　允许：/tmp/hi

　　允许：/~joe/look

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　示例7.使用“*”限制对url的访问

　　禁止访问/cgi-bin/目录下所有后缀为“.htm”的URL（包括子目录）。

　　用户代理：*

　　禁止：/cgi-bin/*.htm

　　示例8.使用“$”限制对url的访问

　　只允许访问带有“.htm”后缀的 URL。

　　用户代理：*

　　允许：.htm$

　　禁止：/

　　示例9.禁止访问网站中的所有动态页面

　　用户代理：*

　　禁止：/*?*

　　例10.禁止百度蜘蛛抓取网站上的所有图片

　　只允许抓取网页，禁止抓取任何图片。

　　用户代理：百度蜘蛛

　　禁止：.jpg$

　　禁止：.jpeg$

　　禁止：.gif$

　　禁止：.png$

　　禁止：.bmp$

　　例11.只允许百度蜘蛛抓取.gif格式的网页和图片

　　允许抓取gif格式的网页和图片，不允许抓取其他格式的图片

　　用户代理：百度蜘蛛

　　允许：.gif$

　　禁止：.jpg$

　　禁止：.jpeg$

　　禁止：.png$

　　禁止：.bmp$

　　例12.只有百度蜘蛛禁止抓取.jpg格式的图片

　　用户代理：百度蜘蛛

　　禁止：.jpg$

　　写这些句子时，需要特别注意的一点是冒号 (:) 和 (/) 之间必须有一个空格。如果不添加此空间，它将不起作用。 robots.txt文件一般放在网站的根目录下，名字必须是robots.txt。

　　在阻止目录时请注意，如果是为了防止对目录的爬取，必须注意目录名中的“/”。不带“/”表示禁止访问目录的所有内容和收录目录名的文件。 “/”表示阻止访问目录的所有内容。这两点必须分清楚。详见“robots文件屏蔽目录有/斜杠与无斜杠的区别”。

　　为了让搜索引擎更快收录我们的内页，我们通常会制作一个百度地图或者谷歌地图，然后，Sitemap:+网站Map，这个命令可以快速引导搜索引擎蜘蛛来你的地图页面抓取网站内页。当网站的死链接太多处理起来很麻烦时，我们可以使用robots来屏蔽这些页面，避免网站因为死链接被百度降级。

　　在网站优化过程中，了解和控制搜索引擎蜘蛛非常重要。那么今天木子网就来介绍一下robots.txt文件的编写方法。希望对大家有帮助。

0

2021-09-03

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(做优化的朋友都知道网站的robots的目的是让搜索引擎知道)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(做优化的朋友都知道网站的robots的目的是让搜索引擎知道)

0 个评论

发起人

相关问题