360搜索引擎优化(robots.txt文件的作用、存放的位置、内容以及语法)

优采云 发布时间: 2021-09-03 08:12

  360搜索引擎优化(robots.txt文件的作用、存放的位置、内容以及语法)

  robots.txt文件相信做搜索引擎优化的朋友都知道robots.txt是搜索引擎爬虫协议,但是很多人不知道robots.txt文件是做什么的。我根据自己的理解给大家做一个简单的介绍。 robots.txt文件的作用、存放位置、内容和基本语法。

  一:什么是Robots搜索引擎协议:

  rotobs协议的全称是“网络爬虫排除协议”,也称为“爬虫协议”或“机器人协议”。另一件需要注意的是机器人搜索引擎协议。虽然称为协议,但Robots协议实际上是一个文本文件(robots.txt文件),Robots是一个可以编辑的文本编辑器。

  二:Robots协议的作用:

  如果网站添加了Robots协议,可以屏蔽一些重复页面、无效页面、死链接、重要业务信息、登录信息等。通过Robots协议屏蔽部分网站信息,不仅可以有效提高网站的质量,还可以节省搜索引擎爬虫资源,让搜索引擎爬虫更快速的抓取需要爬取的网站信息,并且丢弃不需要爬取的信息。已抓取信息。

  三:Robots协议存放位置:

  Robots 协议必须存放在网站root 目录下,名称必须全部小写。内容应使用全角字符而不是半角字符。

  四:机器人协议原理

  当搜索引擎蜘蛛再次抓取网页时,它首先保存一个TXT纯文本(也称为网页快照),然后提取一些标签和标签,然后将内部链接与外部链接分开并再次抓取但是这就引出了一个问题,如果这个网页上有些内容不想被蜘蛛抓取怎么办?于是机器人协议诞生了!

  五:Robots协议的工作原理

  爬虫的工作方式就像蜘蛛沿着网络上的链接上下爬行。最基本的流程可以简化如下:

  1.提供了一些爬虫的URL地址链接,我们称之为*敏*感*词*(seeds);

  2.爬虫抓取URL地址链接,解析html网页,提取超链接;

  3.crawler 然后抓取这些新发现的链接所指向的网页 2、3 来回循环。

  六:机器人协议语法:

  robots.txt 文件收录一条或多条记录,这些记录以空行分隔(CR、CR/CL 或 NL 作为终止符),最基本的语法可以分为三种;

  第 1 条:用户代理:

  该值用于描述搜索引擎机器人的名称。 “robots.txt”文件中应该至少有一个User-agent记录。

  第 2 条:禁止

  该值用于描述您不希望被访问的 URL 地址。此 URL 可以是完整路径或不完整路径。机器人不会访问任何以 Disallow 开头的 URL 地址。

  第三篇:Stiemap

  网站maps 一般分为两种,一种以 .html 为后缀,另一种以 .xml 为后缀。第一种类型为用户提供对网站 页面的快速访问。 ,后者提供搜索引擎爬虫快速访问网站结构和文件。

  七:机器人语法:

  User-agent 定义搜索引擎类型:

  白蜘蛛

  Google 蜘蛛 Googlebot

  360蜘蛛360蜘蛛

  索索蜘蛛索索蜘蛛

  有道机器人蜘蛛

  搜狗新品

  Disallow 定义禁止抓取收录地址(禁止整个站点、禁止文件夹、禁止路径关键词、禁止动态路径、禁止文件)

  Allow 定义允许获取收录address

  语法符号

  1./单个匹配搜索引擎考虑根目录

  2.* 可以匹配0个或全部英文字符

  3.$结束字符

  八.Note

  1.遵守使用细则

  2.有效时间在几天或两个月内

  3.Sitemap 网站Map

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线