搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

优采云发布时间: 2021-09-17 19:02

　　1.robots.txt文件是什么

　　搜索引擎使用蜘蛛程序自动访问互联网上的网页并获取网页信息。当爬行器访问网站时，它将首先检查网站的根域下是否存在名为robots.txt的纯文本文件，该文件用于指定爬行器在网站上的捕获范围。您可以在网站中创建robots.txt，并在文件中声明您不希望搜索引擎收录搜索的网站部分，或者指定搜索引擎只有收录特定部分

　　请注意，如果您的网站收录您不想被收录搜索的内容，您只需要使用robots.txt文件。如果希望搜索引擎收录网站上的所有内容，请不要创建robots.txt文件

　　2.robots.txt档案在哪里

　　robots.txt文件应放在网站root目录中。例如，当爬行器访问网站（例如）时，它将首先检查该文件是否存在于网站。如果爬行器找到该文件，它将根据该文件的内容确定其访问权限的范围

　　网站URL

　　相应robots.txt的URL

　　：80/

　　：80/robots.txt

　　：1234/

　　：1234/robots.txt

　　3.I在robots.txt中设置收录my网站的内容。为什么它仍然出现在百度搜索结果中

　　如果其他网站链接到robots.txt文件中设置的禁止收录网页，这些网页可能仍会出现在百度搜索结果中，但不会捕获、索引和显示您网页上的内容。百度搜索结果仅显示其他网站相关网页的描述

　　4.防止搜索引擎跟踪指向网页的链接并仅为网页编制索引

　　如果您不希望搜索引擎跟踪此页面上的链接，也不希望传递链接的权重，请将此元标记放在页面的以下部分：

　　如果您不希望百度跟踪特定链接，并且百度还支持更精确的控制，请直接在链接上写下此标记：

　　签名

　　若要允许其他搜索引擎跟踪，但仅阻止百度跟踪您网页的链接，请将此元标记放在网页部分：

　　5.禁止搜索引擎在搜索结果中显示网页快照，仅对网页进行索引

　　要阻止所有搜索引擎显示您的网站快照，请将此元标记放置在页面的部分：

　　要允许其他搜索引擎显示快照，但仅阻止百度显示快照，请使用以下标签：

　　注意：此标志仅禁止百度显示页面快照。百度将继续为页面建立索引，并在搜索结果中显示页面摘要

　　6.我想禁止百度图片搜索收录一些图片。如何设置它

　　禁止百度pider在网站上截取所有图片，禁止或允许百度pider在网站上截取特定格式的图片文件可以通过设置机器人来实现。请参考“robots.txt文件使用示例”中的示例10、 11、12

　　7.robots.txt文件格式

　　“robots.TXT”文件收录一个或多个记录，这些记录由空行分隔（Cr、Cr/NL和ORNL作为终止符）。每条记录的格式如下：

　　“：”

　　在此文件中，可以使用#进行注释。具体方法与UNIX中的约定相同。此文件中的记录通常以一行或多行user agent开始，然后是几行disallow和allow。详情如下:

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.TXT”文件中，如果存在多个用户代理记录，则表示多个机器人将受到“robots.TXT”的限制。对于此文件，必须至少有一个用户代理记录。如果此项的值设置为*，则对任何机器人都有效。在“robots.TXT”文件中，只能有一条记录，如“user agent:*”。如果在“robots.TXT”文件中添加了“user agent:somebot”和几个不允许和允许行，“somebot”名称仅受“user agent:somebot”后面的不允许和允许行的限制

　　禁止：

　　此项的值用于描述不希望访问的一组URL。此值可以是完整路径或路径的非空前缀。robot将不会访问以disallow item值开头的URL。例如，“disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html，而“disallow:/help/”允许机器人访问/help.html、/helpabc.html和/help/index.html。“Disallow:”表示允许机器人访问此站点的所有URL网站. “/robots.TXT”文件中必须至少有一条不允许的记录。如果“/robots.TXT”不存在或是空文件，网站对所有搜索引擎robots打开

　　允许：

　　此项的值用于描述要访问的一组URL。与禁止项类似，此值可以是完整路径或路径的前缀。以允许项的值开头的URL允许机器人访问。例如，“允许：/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。默认情况下，网站的所有URL都是允许的，因此allow通常与disallow一起使用，以允许访问某些网页并禁止访问所有其他URL

　　使用“*”和“$”：

　　百度Piper支持使用通配符“*”和“$”来模糊匹配URL

　　“$”与行终止符匹配

　　“*”匹配0个或多个任意字符

　　注：我们将严格遵守机器人的相关协议。请注意区分您不想被捕获的目录或收录的情况，我们会将robots中写入的文件与您不想被捕获的目录精确匹配，收录或robots协议将不生效

　　8.URL匹配示例

　　允许或不允许的值

　　网址

　　匹配结果

　　/tmp

　　对

　　/tmp

　　/tmp.html

　　对

　　/tmp

　　/tmp/a.html

　　对

　　/tmp

　　/特莫霍

　　没有

　　/你好*

　　/Hello.html

　　对

　　/他，瞧

　　/你好，洛洛

　　对

　　/堆*lo

　　/你好，洛洛

　　没有

　　html$

　　/tmpa.html

　　对

　　/a、 html$

　　/a、 html

　　对

　　热媒$

　　/a、 html

　　没有

　　9.robots.txt文件使用示例

　　示例1.禁止所有搜索引擎访问网站的任何部分@

　　下载robots.txt文件

　　用户代理：*

　　禁止：/

　　示例2.允许所有机器人访问

　　（也可以创建一个空文件“/robots.TXT”）

　　用户代理：*

　　允许：/

　　示例3.仅禁止百度pider访问您的网站

　　用户代理：Baiduspider

　　禁止：/

　　示例4.只允许百度pider访问您的网站

　　用户代理：Baiduspider

　　允许：/

　　用户代理：*

　　禁止：/

　　例如，5.只允许百度pider和谷歌机器人访问

　　用户代理：Baiduspider

　　允许：/

　　用户代理：谷歌机器人

　　允许：/

　　用户代理：*

　　禁止：/

　　示例6.阻止spider访问特定目录

　　在本例中，网站三个目录限制了搜索引擎的访问，也就是说，机器人不会访问这三个目录。需要注意的是，每个目录必须单独声明，不能写为“不允许：/CGI-bin//TMP/”

　　用户代理：*

　　不允许：/cgi-bin/

　　不允许：/tmp/

　　不允许：/~乔/

　　示例7.允许访问特定目录中的某些URL

　　用户代理：*

　　允许：/cgi-bin/请参阅

　　允许：/tmp/hi

　　允许：/~joe/看

　　不允许：/cgi-bin/

　　不允许：/tmp/

　　不允许：/~乔/

　　示例8.使用“*”限制对URL的访问

　　禁止访问/CGI-bin/目录下后缀为“.HTM”的所有URL（包括子目录）

　　用户代理：*

　　不允许：/cgi-bin/*.htm

　　示例9.使用“$”限制对URL的访问

　　仅允许后缀为“.HTM”的URL

　　用户代理：*

　　允许：/*.htm$

　　禁止：/

　　范例10.禁止访问网站中的所有动态页面@

　　用户代理：*

　　不允许：/**

　　范例11.Baidu pider禁止在网站上截取所有图片@

　　只允许对网页进行爬网，不允许对图片进行爬网

　　用户代理：Baiduspider

　　不允许：/*.jpg$

　　不允许：/*.jpeg$

　　不允许：/*.gif$

　　不允许：/*.png$

　　不允许：/*.bmp$

　　范例12.只允许百度pider捕获网页和内容。GIF格式图片

　　允许抓取网页和GIF格式的图片，不允许抓取其他格式的图片

　　用户代理：Baiduspider

　　允许：/*.gif$

　　不允许：/*.jpg$

　　不允许：/*.jpeg$

　　不允许：/*.png$

　　不允许：/*.bmp$

　　范例13.Only百度皮德禁止在网站上截图。JPG格式

　　用户代理：Baiduspider

　　不允许：/*.jpg$

　　10.Robots.txt文件参考

　　有关robots.txt文件的更多具体设置，请参阅以下链接：

　　网络服务器管理员&#39；SGUIDETOHEROBOTSExclusionProtocol

　　HTMLAuthor&#39；SGUIDETOHEROBOTSExclusionProtocol

　　最初的1994年协议描述，目前已部署

　　修订后的互联网图纸规范，未完成或实施

0

2021-09-17

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

0 个评论

发起人

相关问题