重庆搜索引擎优化(robots.txt文件适用于WordPress的robots文件内容内容!)
优采云 发布时间: 2021-12-02 16:19重庆搜索引擎优化(robots.txt文件适用于WordPress的robots文件内容内容!)
说起robots.txt,大家已经不再陌生,但有时候很多细节还是没有被大多数人注意到。比如子帆忽略了一个细节,导致最近在搜索引擎结果中的一些文章中有重复但毫无意义的链接,如果你也在用WordPress,不妨看看自己的robots.txt文件。
如果你的WordPress站点没有robots.txt文件,那么紫帆觉得你更需要加一个,即使你的站点可以被搜索引擎随意抓取,因为当搜索引擎机器人访问网站@ >, 首先会在站点根目录寻找robots.txt文件。如果有这个文件,根据文件内容确定收录的范围,如果没有,默认访问所有页面和收录。另外,当搜索蜘蛛发现没有robots.txt文件时,会在服务器上生成404错误日志,增加了服务器的负担。因此,在网站上添加robots.txt文件还是很重要的。
好的,下面分享一个由子帆整理的WordPress完整robots.txt文件!
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /attachment/
Disallow: /comments/feed
Disallow: /feed
Disallow: /*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php
Sitemap: http://yourdomain.com/sitemap.html
使用方法:新建一个名为robots.txt的文本文件,将上述内容放入其中,上传到网站@>的根目录。
最后简单分析一下它对应的作用
1、用户代理:*
允许所有搜索引擎抓取网站@>,除非您网站@>专门针对一个或多个搜索引擎,您可以适当设置它们的抓取。只允许百度和谷歌抓取如下:
1
2
3
4
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
这个设置的意思是只允许百度和谷歌蜘蛛全部爬取,但是这里使用的是Disallow设置的/根目录,所以这里实际上是禁止百度和谷歌爬取的。如果你想允许所有你可以使用 Allow ,你可以类比使用它,仔细感受它。
2、禁止:/wp-admin/,禁止:/wp-content/,禁止:/wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。
3、禁止:/*/comment-page-* 和禁止:/*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。
4、禁止:/category/*/page/ 和禁止:/tag/*/page/
禁止搜索引擎抓取收录 类别和标签页。(本文不加在上面的demo中,因为不同的WordPress站点可能不一样,大家可以根据需要添加)
5、禁止:/*/trackback 和禁止:/trackback/
禁止搜索引擎抓取收录 trackback等垃圾邮件
6、禁止:/feed,禁止:/*/feed,禁止:/comments/feed
禁止搜索引擎抓取 收录 提要链接。该提要仅用于订阅本站,与搜索引擎无关。
7、禁止:/?s=* 和禁止:/*/?s=*\
禁止搜索引擎抓取网站搜索结果
8、禁止:/附件/
禁止搜索引擎抓取附件页面,如无意义的图片附件页面。
9、禁止:/wp-*.php
禁止搜索引擎抓取WordPress网站@>根目录下wp开头的文件。
10、网站地图:
这是网站@>图方便搜索引擎使用,需要根据自己的网站@>添加。
其实关于网站@> robots.txt的内容还有很多。在这里,子帆只是列举了一些WordPress最常用的规则。要不是最近泪雪博客上robots.txt的出现很草率,已经造成了问题。子帆不会单独整理关于WordPress的robots.txt,反正希望对大家有帮助!
更多WordPress优化和问题可以加群:255308000
除非另有说明,均为雷雪博客原创文章,禁止以任何形式转载
这篇文章的链接: