什么是robots.txt文件?搜索引擎使用spider程序自动访问

优采云 发布时间: 2021-05-23 23:13

  什么是robots.txt文件?搜索引擎使用spider程序自动访问

  1.什么是robots.txt文件?

  搜索引擎使用蜘蛛程序自动访问Internet上的网页并获取网页信息。蜘蛛访问网站时,它将首先检查网站的根域下是否存在一个名为robots.txt的纯文本文件。该文件用于在网站上指定蜘蛛的爬行范围。您可以在网站中创建robots.txt,并在文件中声明网站中您不想被搜索引擎收录搜索的部分,或者将搜索引擎指定为仅收录特定部分。

  请注意,如果网站收录不想由搜索引擎收录搜索的内容,则仅需要使用robots.txt文件。如果您想要搜索引擎收录 网站上的所有内容,请不要创建robots.txt文件。

  2. robots.txt文件在哪里?

  robots.txt文件应放置在网站的根目录中。例如,当蜘蛛程序访问网站时,它将首先检查网站中是否存在该文件。如果蜘蛛程序找到了文件,它将根据文件范围的内容确定其访问权限。

  网站 URL

  相应robots.txt的网址

  :80 /

  :80 / robots.txt

  :1234 /

  :1234 / robots.txt

  3.我在robots.txt中设置了对百度收录和I 网站的禁止,为什么它仍出现在百度搜索结果中?

  如果您在robots.txt文件中设置的收录禁止访问的其他网站网页链接,则这些网页可能仍会出现在百度的搜索结果中,但不会捕获您网页上的内容,建立索引并显示出来,百度搜索结果仅显示您相关网页的其他网站描述。

  4.禁止搜索引擎跟踪指向网页的链接,并且仅跟踪网页

  如果您不希望搜索引擎跟踪此页面上的链接并且不传递链接的权重,请将此元标记放在页面的一部分中:

  如果您不希望百度跟踪特定链接,则百度还支持更精确的控制,请直接在链接上写以下标记:

  登录

  要允许其他搜索引擎跟踪,但仅阻止百度跟踪指向您网页的链接,请将此元标记放在网页的一部分中:

  5.禁止搜索引擎在搜索结果中显示网页快照,仅显示索引网页

  为防止所有搜索引擎显示您的网站快照,请将此元标记放在页面的一部分:

  要允许其他搜索引擎显示快照,但仅阻止百度显示快照,请使用以下标记:

  注意:此标签仅禁止百度显示网页快照。百度将继续为该网页建立索引,并在搜索结果中显示该网页的摘要。

  6.我要禁止百度图片搜索收录中的某些图片,该如何设置?

  通过设置机器人,可以禁止Baiduspider在网站上捕获所有图片,禁止或允许Baiduspider在网站上捕获某种格式的图片文件,请参考“ robots.txt文件使用示例”示例1 0、 1 1、 12。

  7. Robots.txt文件格式

  “ robots.txt”文件收录一个或多个记录,这些记录由空白行(以CR,CR / NL或NL作为终止符)分隔,每个记录的格式如下:

  “:”

  在此文件中,可以将#用作批注,具体用法与UNIX中的约定相同。该文件中的记录通常以一个或多个User-agent行开头,然后是多个Disallow和Allow行,详细信息如下:

  用户代理:

  此项的值用于描述搜索引擎机器人的名称。在“ robots.txt”文件中,如果有多个用户代理记录,则意味着多个机器人将受到“ robots.txt”的限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则对任何机械手均有效。在“ robots.txt”文件中,只能有一个记录,例如“ User-agent:*”。如果在“ robots.txt”文件中添加“用户代理:SomeBot”和几行“禁止”和“允许”行,则名称“ SomeBot”仅受“用户代理:SomeBot”之后的“禁止”和“允许”行的限制。

  不允许:

  此项的值用于描述一组不想被访问的URL。该值可以是完整路径,也可以是路径的非空前缀。机械手将无法访问以Disallow项的值开头的URL。例如,“ Disallow:/ help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“ Disallow:/ help /”允许机器人访问/help.html、/helpabc。 html,而不是访问/help/index.html。 “禁止:”表示允许机器人访问网站的所有URL。在“ /robots.txt”文件中,必须至少有一个Disallow记录。如果“ /robots.txt”不存在或为空文件,则此网站对所有搜索引擎机器人均处于打开状态。

  允许:

  此项的值用于描述您要访问的一组URL。与“禁止”项类似,此值可以是完整路径或路径前缀。以“允许”项的值开头的URL允许访问过的机器人。例如,“允许:/ hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。 网站的所有URL默认情况下都是允许的,因此Allow通常与Disallow结合使用,以实现允许访问某些网页而禁止访问所有其他URL的功能。

  使用“ *”和“ $”:

  Baiduspider支持使用通配符“ *”和“ $”来模糊匹配URL。

  “ $”匹配行尾。

  “ *”匹配0个或多个任意字符。

  注意:我们将严格遵守机器人的相关协议。请注意区分您不想爬网或收录的目录的大小写。我们将处理用机械手编写的文件和您不想爬网的文件,并进行完全匹配,否则机械手协议将无效。

  8. URL匹配示例

  允许或禁止值

  URL

  匹配结果

  / tmp

  / tmp

  是

  / tmp

  /tmp.html

  是

  / tmp

  /tmp/a.html

  是

  / tmp

  / tmphoho

  否

  /你好*

  /Hello.html

  是

  / He * lo

  /你好,lolo

  是

  / Heap * lo

  /你好,lolo

  否

  html $

  /tmpa.html

  是

  /a.html $

  /a.html

  是

  htm $

  /a.html

  否

  9. robots.txt文件用法示例

  示例1.禁止所有搜索引擎访问网站的任何部分

  下载robots.txt文件

  用户代理:*

  不允许:/

  示例2.允许所有机器人访问

  (或者您可以创建一个空文件“ /robots.txt”)

  用户代理:*

  允许:/

  示例3.仅禁止Baiduspider访问您的网站

  User-agent:Baiduspider

  不允许:/

  示例4.仅允许Baiduspider访问您的网站

  User-agent:Baiduspider

  允许:/

  用户代理:*

  不允许:/

  示例5.仅允许Baiduspider和Googlebot访问

  User-agent:Baiduspider

  允许:/

  User-agent:Googlebot

  允许:/

  用户代理:*

  不允许:/

  示例6.阻止蜘蛛访问特定目录

  在此示例中,网站具有三个目录,这些目录限制对搜索引擎的访问,即,机器人不会访问这三个目录。请注意,每个目录必须分别声明,并且不能写为“ Disallow:/ cgi-bin // tmp /”。

  用户代理:*

  不允许:/ cgi-bin /

  不允许:/ tmp /

  不允许:/〜joe /

  示例7.允许访问特定目录中的某些URL

  用户代理:*

  允许:/ cgi-bin / see

  允许:/ tmp / hi

  允许:/〜joe / look

  不允许:/ cgi-bin /

  不允许:/ tmp /

  不允许:/〜joe /

  示例8.使用“ *”限制对url的访问

  禁止访问/ cgi-bin /目录中所有带有后缀“ .htm”的URL(包括子目录)。

  用户代理:*

  不允许:/ cgi-bin / *。htm

  示例9.使用“ $”限制对url的访问

  仅允许访问后缀为“ .htm”的URL。

  用户代理:*

  允许:/ *。htm $

  不允许:/

  示例1 0.禁止访问网站中的所有动态页面

  用户代理:*

  不允许:/ *?*

  示例1 1.禁止Baiduspider捕获网站上的所有图片

  仅允许对网页进行爬网,并禁止对任何图像进行爬网。

  User-agent:Baiduspider

  不允许:/ *。jpg $

  不允许:/ *。jpeg $

  不允许:/ *。gif $

  不允许:/ *。png $

  不允许:/ *。bmp $

  示例1 2.仅允许Baiduspider抓取.gif格式的网页和图片

  允许抓取gif格式的网页和图片,但不允许其他格式的图片

  User-agent:Baiduspider

  允许:/ *。gif $

  不允许:/ *。jpg $

  不允许:/ *。jpeg $

  不允许:/ *。png $

  不允许:/ *。bmp $

  示例1 3.仅禁止Baiduspider捕获.jpg格式的图片

  User-agent:Baiduspider

  不允许:/ *。jpg $

  1 0. robots.txt文件参考资料

  有关robots.txt文件的更多具体设置,请参考以下链接:

  WebServerAdministrator机器人排除协议指南

  HTMLAuthor'sGuidetoTheRobotsExclusionProtocol

  最初采用的1994年原创协议描述

  提出了尚未完成的Internet草案规范

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线