什么是robots.txt文件?搜索引擎使用spider程序自动访问

优采云发布时间: 2021-05-23 23:13

　　1.什么是robots.txt文件？

　　搜索引擎使用蜘蛛程序自动访问Internet上的网页并获取网页信息。蜘蛛访问网站时，它将首先检查网站的根域下是否存在一个名为robots.txt的纯文本文件。该文件用于在网站上指定蜘蛛的爬行范围。您可以在网站中创建robots.txt，并在文件中声明网站中您不想被搜索引擎收录搜索的部分，或者将搜索引擎指定为仅收录特定部分。

　　请注意，如果网站收录不想由搜索引擎收录搜索的内容，则仅需要使用robots.txt文件。如果您想要搜索引擎收录网站上的所有内容，请不要创建robots.txt文件。

　　2. robots.txt文件在哪里？

　　robots.txt文件应放置在网站的根目录中。例如，当蜘蛛程序访问网站时，它将首先检查网站中是否存在该文件。如果蜘蛛程序找到了文件，它将根据文件范围的内容确定其访问权限。

　　网站 URL

　　相应robots.txt的网址

　　：80 /

　　：80 / robots.txt

　　：1234 /

　　：1234 / robots.txt

　　3.我在robots.txt中设置了对百度收录和I 网站的禁止，为什么它仍出现在百度搜索结果中？

　　如果您在robots.txt文件中设置的收录禁止访问的其他网站网页链接，则这些网页可能仍会出现在百度的搜索结果中，但不会捕获您网页上的内容，建立索引并显示出来，百度搜索结果仅显示您相关网页的其他网站描述。

　　4.禁止搜索引擎跟踪指向网页的链接，并且仅跟踪网页

　　如果您不希望搜索引擎跟踪此页面上的链接并且不传递链接的权重，请将此元标记放在页面的一部分中：

　　如果您不希望百度跟踪特定链接，则百度还支持更精确的控制，请直接在链接上写以下标记：

　　登录

　　要允许其他搜索引擎跟踪，但仅阻止百度跟踪指向您网页的链接，请将此元标记放在网页的一部分中：

　　5.禁止搜索引擎在搜索结果中显示网页快照，仅显示索引网页

　　为防止所有搜索引擎显示您的网站快照，请将此元标记放在页面的一部分：

　　要允许其他搜索引擎显示快照，但仅阻止百度显示快照，请使用以下标记：

　　注意：此标签仅禁止百度显示网页快照。百度将继续为该网页建立索引，并在搜索结果中显示该网页的摘要。

　　6.我要禁止百度图片搜索收录中的某些图片，该如何设置？

　　通过设置机器人，可以禁止Baiduspider在网站上捕获所有图片，禁止或允许Baiduspider在网站上捕获某种格式的图片文件，请参考“ robots.txt文件使用示例”示例1 0、 1 1、 12。

　　7. Robots.txt文件格式

　　“ robots.txt”文件收录一个或多个记录，这些记录由空白行（以CR，CR / NL或NL作为终止符）分隔，每个记录的格式如下：

　　“：”

　　在此文件中，可以将＃用作批注，具体用法与UNIX中的约定相同。该文件中的记录通常以一个或多个User-agent行开头，然后是多个Disallow和Allow行，详细信息如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“ robots.txt”文件中，如果有多个用户代理记录，则意味着多个机器人将受到“ robots.txt”的限制。对于此文件，必须至少有一个用户代理记录。如果此项的值设置为*，则对任何机械手均有效。在“ robots.txt”文件中，只能有一个记录，例如“ User-agent：*”。如果在“ robots.txt”文件中添加“用户代理：SomeBot”和几行“禁止”和“允许”行，则名称“ SomeBot”仅受“用户代理：SomeBot”之后的“禁止”和“允许”行的限制。

　　不允许：

　　此项的值用于描述一组不想被访问的URL。该值可以是完整路径，也可以是路径的非空前缀。机械手将无法访问以Disallow项的值开头的URL。例如，“ Disallow：/ help”禁止机器人访问/help.html、/helpabc.html、/help/index.html，而“ Disallow：/ help /”允许机器人访问/help.html、/helpabc。 html，而不是访问/help/index.html。 “禁止：”表示允许机器人访问网站的所有URL。在“ /robots.txt”文件中，必须至少有一个Disallow记录。如果“ /robots.txt”不存在或为空文件，则此网站对所有搜索引擎机器人均处于打开状态。

　　允许：

　　此项的值用于描述您要访问的一组URL。与“禁止”项类似，此值可以是完整路径或路径前缀。以“允许”项的值开头的URL允许访问过的机器人。例如，“允许：/ hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站的所有URL默认情况下都是允许的，因此Allow通常与Disallow结合使用，以实现允许访问某些网页而禁止访问所有其他URL的功能。

　　使用“ *”和“ $”：

　　Baiduspider支持使用通配符“ *”和“ $”来模糊匹配URL。

　　“ $”匹配行尾。

　　“ *”匹配0个或多个任意字符。

　　注意：我们将严格遵守机器人的相关协议。请注意区分您不想爬网或收录的目录的大小写。我们将处理用机械手编写的文件和您不想爬网的文件，并进行完全匹配，否则机械手协议将无效。

　　8. URL匹配示例

　　允许或禁止值

　　URL

　　匹配结果

　　/ tmp

　　是

　　/ tmp

　　/tmp.html

　　是

　　/ tmp

　　/tmp/a.html

　　是

　　/ tmp

　　/ tmphoho

　　否

　　/你好*

　　/Hello.html

　　是

　　/ He * lo

　　/你好，lolo

　　是

　　/ Heap * lo

　　/你好，lolo

　　否

　　html $

　　/tmpa.html

　　是

　　/a.html $

　　/a.html

　　是

　　htm $

　　/a.html

　　否

　　9. robots.txt文件用法示例

　　示例1.禁止所有搜索引擎访问网站的任何部分

　　下载robots.txt文件

　　用户代理：*

　　不允许：/

　　示例2.允许所有机器人访问

　　（或者您可以创建一个空文件“ /robots.txt”）

　　用户代理：*

　　允许：/

　　示例3.仅禁止Baiduspider访问您的网站

　　User-agent：Baiduspider

　　不允许：/

　　示例4.仅允许Baiduspider访问您的网站

　　User-agent：Baiduspider

　　允许：/

　　用户代理：*

　　不允许：/

　　示例5.仅允许Baiduspider和Googlebot访问

　　User-agent：Baiduspider

　　允许：/

　　User-agent：Googlebot

　　允许：/

　　用户代理：*

　　不允许：/

　　示例6.阻止蜘蛛访问特定目录

　　在此示例中，网站具有三个目录，这些目录限制对搜索引擎的访问，即，机器人不会访问这三个目录。请注意，每个目录必须分别声明，并且不能写为“ Disallow：/ cgi-bin // tmp /”。

　　用户代理：*

　　不允许：/ cgi-bin /

　　不允许：/ tmp /

　　不允许：/〜joe /

　　示例7.允许访问特定目录中的某些URL

　　用户代理：*

　　允许：/ cgi-bin / see

　　允许：/ tmp / hi

　　允许：/〜joe / look

　　不允许：/ cgi-bin /

　　不允许：/ tmp /

　　不允许：/〜joe /

　　示例8.使用“ *”限制对url的访问

　　禁止访问/ cgi-bin /目录中所有带有后缀“ .htm”的URL（包括子目录）。

　　用户代理：*

　　不允许：/ cgi-bin / *。htm

　　示例9.使用“ $”限制对url的访问

　　仅允许访问后缀为“ .htm”的URL。

　　用户代理：*

　　允许：/ *。htm $

　　不允许：/

　　示例1 0.禁止访问网站中的所有动态页面

　　用户代理：*

　　不允许：/ *？*

　　示例1 1.禁止Baiduspider捕获网站上的所有图片

　　仅允许对网页进行爬网，并禁止对任何图像进行爬网。

　　User-agent：Baiduspider

　　不允许：/ *。jpg $

　　不允许：/ *。jpeg $

　　不允许：/ *。gif $

　　不允许：/ *。png $

　　不允许：/ *。bmp $

　　示例1 2.仅允许Baiduspider抓取.gif格式的网页和图片

　　允许抓取gif格式的网页和图片，但不允许其他格式的图片

　　User-agent：Baiduspider

　　允许：/ *。gif $

　　不允许：/ *。jpg $

　　不允许：/ *。jpeg $

　　不允许：/ *。png $

　　不允许：/ *。bmp $

　　示例1 3.仅禁止Baiduspider捕获.jpg格式的图片

　　User-agent：Baiduspider

　　不允许：/ *。jpg $

　　1 0. robots.txt文件参考资料

　　有关robots.txt文件的更多具体设置，请参考以下链接：

　　WebServerAdministrator机器人排除协议指南

　　HTMLAuthor'sGuidetoTheRobotsExclusionProtocol

　　最初采用的1994年原创协议描述

　　提出了尚未完成的Internet草案规范

0

2021-05-23

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

什么是robots.txt文件?搜索引擎使用spider程序自动访问

0 个评论

发起人

AI时代内容工厂

什么是robots.txt文件?搜索引擎使用spider程序自动访问

0 个评论

发起人

相关问题