蜘蛛爬取WordPress网站的行为组成规则及设置演示
优采云 发布时间: 2021-07-03 20:54蜘蛛爬取WordPress网站的行为组成规则及设置演示
一、robots 介绍
Robots 协议(也称为爬虫协议、机器人协议等)的全称是“Robots Exclusion Protocol”。 网站通过Robots协议告诉访问网站的搜索引擎,这个网站哪些页面可以爬取,哪些页面不能爬取。
robots.txt 是搜索引擎访问网站 时首先查看的文件。当搜索蜘蛛访问一个站点时,它首先会检查站点根目录下是否有robots.txt文件。如果存在,搜索蜘蛛会根据文件中规定的规则确定访问范围;如果该文件不存在,所有搜索蜘蛛将能够访问网站 上所有不受密码保护的页面和内容。
在SEO中,如果要搜索引擎搜索和收录你网站内容,正确编写robots.txt文件很重要。
robots.txt文件通常存放在网站的根目录下,但不排除使用插件等技术将内容封装到数据库中的可能性。
二、robots 组成规则
robots 文件通常包括:User-agent、Disallow、Allow、Sitemap 内容:
(1)User-agent 规则:
User-agent 用于指定搜索引擎蜘蛛并限制它们在网站 上的行为。
User-agent:Baiduspider // 针对百度搜索蜘蛛
... // 该蜘蛛的行为限制规则
User-agent:googlebot // 针对谷歌搜索蜘蛛
... // 该蜘蛛的行为限制规则
User-agent: * // *表示全局变量,针对全体搜索引擎起作用
... // 所有蜘蛛通用的行为限制规则
常见的蜘蛛是
(2)Disallow 规则:
Disallow关键词,用于定义禁止搜索引擎收录的地址。
Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。
Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。
(3)Allow 规则:
Allow关键词,用于定义允许的搜索引擎收录的地址。
(4)Sitemap 规则:
Sitemap用于告诉搜索引擎网站map的位置,其中sitemap.xml就是你的网站网站map文件。
Sitemap: http://domain/sitemap.xml
三、设置演示
以下是设置所有蜘蛛爬取WordPress 网站的行为的例子。
1、编辑 robots.txt 文件
禁止所有蜘蛛爬取Word Press网站中的重要目录和文件:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-*.php
禁止搜索引擎抓取评论页等相关链接:
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
禁止搜索引擎抓取网站搜索结果:
Disallow: /?s=*
Disallow: /*/?s=*
禁止搜索引擎抓取收录提要链接(提要仅用于订阅本站,与搜索引擎无关):
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /articles/*/feed
禁止蜘蛛爬取WordPress下的readme.html、license.txt和wp-config-sample.php文件,以降低当前WordPress版本等信息泄露的风险:
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
在robots.txt中添加sitemap相关文件,帮助搜索引擎快速抓取收录你的网站页面:
# 需根据网站实际情况填写。
Sitemap: http://yourdomain.com/sitemap.xml
Sitemap: http://yourdomain.com/post-sitemap.xml
Sitemap: http://yourdomain.com/page-sitemap.xml
Sitemap: http://yourdomain.com/author-sitemap.xml
Sitemap: http://yourdomain.com/offers-sitemap.xml
您可以根据自己的需要,将上述相关规则汇总成一个名为robots.txt的文件!
提醒:
1、以上robots.txt内容仅供参考。请根据自己的网站实际情况写内容。
2、如果你不喜欢手动写指令,你可以试试在线机器人生成工具:。 2、上传robots.txt到网站
编辑robots.txt后,将文件上传到网站服务器,一般存放在网站的根目录下。当然,如果你在robots.txt中指定了文件的位置,就应该放在对应的位置。
3、测试robots.txt是否设置成功
直接在浏览器的地址栏中输入。如果服务器可以正常访问,可以看到上面配置的规则,说明robots.txt已经生效了。
参考文章: