蜘蛛爬取WordPress网站的行为组成规则及设置演示

优采云 发布时间: 2021-07-03 20:54

  蜘蛛爬取WordPress网站的行为组成规则及设置演示

  一、robots 介绍

  Robots 协议(也称为爬虫协议、机器人协议等)的全称是“Robots Exclusion Protocol”。 网站通过Robots协议告诉访问网站的搜索引擎,这个网站哪些页面可以爬取,哪些页面不能爬取。

  robots.txt 是搜索引擎访问网站 时首先查看的文件。当搜索蜘蛛访问一个站点时,它首先会检查站点根目录下是否有robots.txt文件。如果存在,搜索蜘蛛会根据文件中规定的规则确定访问范围;如果该文件不存在,所有搜索蜘蛛将能够访问网站 上所有不受密码保护的页面和内容。

  在SEO中,如果要搜索引擎搜索和收录你网站内容,正确编写robots.txt文件很重要。

  robots.txt文件通常存放在网站的根目录下,但不排除使用插件等技术将内容封装到数据库中的可能性。

  二、robots 组成规则

  robots 文件通常包括:User-agent、Disallow、Allow、Sitemap 内容:

  (1)User-agent 规则:

  User-agent 用于指定搜索引擎蜘蛛并限制它们在网站 上的行为。

  User-agent:Baiduspider   // 针对百度搜索蜘蛛

... // 该蜘蛛的行为限制规则

User-agent:googlebot   // 针对谷歌搜索蜘蛛

... // 该蜘蛛的行为限制规则

User-agent: *   // *表示全局变量,针对全体搜索引擎起作用

... // 所有蜘蛛通用的行为限制规则

  常见的蜘蛛是

  (2)Disallow 规则:

  Disallow关键词,用于定义禁止搜索引擎收录的地址。

  Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。

  (3)Allow 规则:

  Allow关键词,用于定义允许的搜索引擎收录的地址。

  (4)Sitemap 规则:

  Sitemap用于告诉搜索引擎网站map的位置,其中sitemap.xml就是你的网站网站map文件。

  Sitemap: http://domain/sitemap.xml

  三、设置演示

  以下是设置所有蜘蛛爬取WordPress 网站的行为的例子。

  1、编辑 robots.txt 文件

  禁止所有蜘蛛爬取Word Press网站中的重要目录和文件:

  User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Disallow: /wp-*.php

  禁止搜索引擎抓取评论页等相关链接:

  Disallow: /*/comment-page-*

Disallow: /*?replytocom=*

  禁止搜索引擎抓取网站搜索结果:

  Disallow: /?s=*

Disallow: /*/?s=*

  禁止搜索引擎抓取收录提要链接(提要仅用于订阅本站,与搜索引擎无关):

  Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /articles/*/feed

  禁止蜘蛛爬取WordPress下的readme.html、license.txt和wp-config-sample.php文件,以降低当前WordPress版本等信息泄露的风险:

  Disallow: /readme.html

Disallow: /licence.txt

Disallow: /wp-config-sample.php

  在robots.txt中添加sitemap相关文件,帮助搜索引擎快速抓取收录你的网站页面:

  # 需根据网站实际情况填写。

Sitemap: http://yourdomain.com/sitemap.xml

Sitemap: http://yourdomain.com/post-sitemap.xml

Sitemap: http://yourdomain.com/page-sitemap.xml

Sitemap: http://yourdomain.com/author-sitemap.xml

Sitemap: http://yourdomain.com/offers-sitemap.xml

  您可以根据自己的需要,将上述相关规则汇总成一个名为robots.txt的文件!

  提醒:

  1、以上robots.txt内容仅供参考。请根据自己的网站实际情况写内容。

  2、如果你不喜欢手动写指令,你可以试试在线机器人生成工具:。 2、上传robots.txt到网站

  编辑robots.txt后,将文件上传到网站服务器,一般存放在网站的根目录下。当然,如果你在robots.txt中指定了文件的位置,就应该放在对应的位置。

  3、测试robots.txt是否设置成功

  直接在浏览器的地址栏中输入。如果服务器可以正常访问,可以看到上面配置的规则,说明robots.txt已经生效了。

  参考文章:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线