蜘蛛爬取WordPress网站的行为组成规则及设置演示

优采云发布时间: 2021-07-03 20:54

　　一、robots 介绍

　　Robots 协议（也称为爬虫协议、机器人协议等）的全称是“Robots Exclusion Protocol”。网站通过Robots协议告诉访问网站的搜索引擎，这个网站哪些页面可以爬取，哪些页面不能爬取。

　　robots.txt 是搜索引擎访问网站时首先查看的文件。当搜索蜘蛛访问一个站点时，它首先会检查站点根目录下是否有robots.txt文件。如果存在，搜索蜘蛛会根据文件中规定的规则确定访问范围；如果该文件不存在，所有搜索蜘蛛将能够访问网站上所有不受密码保护的页面和内容。

　　在SEO中，如果要搜索引擎搜索和收录你网站内容，正确编写robots.txt文件很重要。

　　robots.txt文件通常存放在网站的根目录下，但不排除使用插件等技术将内容封装到数据库中的可能性。

　　二、robots 组成规则

　　robots 文件通常包括：User-agent、Disallow、Allow、Sitemap 内容：

　　（1）User-agent 规则：

　　User-agent 用于指定搜索引擎蜘蛛并限制它们在网站上的行为。

　　User-agent:Baiduspider // 针对百度搜索蜘蛛

... // 该蜘蛛的行为限制规则

User-agent:googlebot // 针对谷歌搜索蜘蛛

... // 该蜘蛛的行为限制规则

User-agent: * // *表示全局变量，针对全体搜索引擎起作用

... // 所有蜘蛛通用的行为限制规则

　　常见的蜘蛛是

　　（2）Disallow 规则：

　　Disallow关键词，用于定义禁止搜索引擎收录的地址。

　　Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件，但是不限制abc.php、abc.html文件。

　　(3）Allow 规则：

　　Allow关键词，用于定义允许的搜索引擎收录的地址。

　　(4）Sitemap 规则：

　　Sitemap用于告诉搜索引擎网站map的位置，其中sitemap.xml就是你的网站网站map文件。

　　Sitemap: http://domain/sitemap.xml

　　三、设置演示

　　以下是设置所有蜘蛛爬取WordPress 网站的行为的例子。

　　1、编辑 robots.txt 文件

　　禁止所有蜘蛛爬取Word Press网站中的重要目录和文件：

　　User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Disallow: /wp-*.php

　　禁止搜索引擎抓取评论页等相关链接：

　　Disallow: /*/comment-page-*

Disallow: /*?replytocom=*

　　禁止搜索引擎抓取网站搜索结果：

　　Disallow: /?s=*

Disallow: /*/?s=*

　　禁止搜索引擎抓取收录提要链接（提要仅用于订阅本站，与搜索引擎无关）：

　　Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /articles/*/feed

　　禁止蜘蛛爬取WordPress下的readme.html、license.txt和wp-config-sample.php文件，以降低当前WordPress版本等信息泄露的风险：

　　Disallow: /readme.html

Disallow: /licence.txt

Disallow: /wp-config-sample.php

　　在robots.txt中添加sitemap相关文件，帮助搜索引擎快速抓取收录你的网站页面：

　　# 需根据网站实际情况填写。

Sitemap: http://yourdomain.com/sitemap.xml

Sitemap: http://yourdomain.com/post-sitemap.xml

Sitemap: http://yourdomain.com/page-sitemap.xml

Sitemap: http://yourdomain.com/author-sitemap.xml

Sitemap: http://yourdomain.com/offers-sitemap.xml

　　您可以根据自己的需要，将上述相关规则汇总成一个名为robots.txt的文件！

　　提醒：

　　1、以上robots.txt内容仅供参考。请根据自己的网站实际情况写内容。

　　2、如果你不喜欢手动写指令，你可以试试在线机器人生成工具：。 2、上传robots.txt到网站

　　编辑robots.txt后，将文件上传到网站服务器，一般存放在网站的根目录下。当然，如果你在robots.txt中指定了文件的位置，就应该放在对应的位置。

　　3、测试robots.txt是否设置成功

　　直接在浏览器的地址栏中输入。如果服务器可以正常访问，可以看到上面配置的规则，说明robots.txt已经生效了。

　　参考文章：

0

2021-07-03

wordpress 搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

蜘蛛爬取WordPress网站的行为组成规则及设置演示

0 个评论

发起人