WordPress.txt文件限制搜索引擎部分目录及文件的归纳
优采云 发布时间: 2021-06-01 23:34WordPress.txt文件限制搜索引擎部分目录及文件的归纳
从 WordPress 2.1 版本开始,隐私选项允许用户设置是否被搜索引擎索引。但它只有两种选择,一种是允许所有搜索引擎机器人(Spider)索引所有内容,另一种是不允许。其实robots.txt的用途很多,我们可以用它来告诉搜索引擎哪些目录可以爬,哪些不能爬。
防止蜘蛛爬取WordPress中的某些目录和文件,不仅可以有效节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名。
对于使用 WordPress 构建的博客,robots.txt 文件用于限制搜索引擎抓取某些目录和文件。大致有以下几种方法。
最简单的开放式写法:
用户代理:*
禁止:
使用说明:允许所有蜘蛛访问,允许访问所有内容。只要模板中的链接设计合理,没有需要限制的特殊内容,建议采用这种写法。
最简单严格的写法:
用户代理:*
禁止:/wp-*
#Allow: /wp-content/uploads/
禁止:/*.php$
禁止:/*.inc$
禁止:/*.js$
禁止:/*.css$
禁止:/?s=
使用说明:允许所有蜘蛛访问,限制以“wp-”开头的目录和文件,限制爬取.php文件、.inc文件、.js文件和.css文件,限制爬取搜索结果。
禁止:/wp-* 将限制抓取和附件目录。如果您希望搜索引擎抓取附件的内容,请删除第三行的 # 注释。并非所有搜索引擎都支持允许。
最合理的写法:
用户代理:*
禁止:/wp-admin
禁止:/wp-content/plugins
禁止:/wp-content/themes
禁止:/wp-includes
禁止:/?s=
站点地图:
使用说明:允许所有搜索引擎爬取,一一列出需要限制的目录,限制搜索结果爬取。
收录sitemap.xml地址(这一项在wiki有专门说明,但是谷歌管理员工具会提示'invalid Sitemap reference detected',有效性仍有争议)。
robots.txt 的其他写法:为了避免搜索引擎中出现重复页面,Wordpress 玩家创造了很多机器人写法。列举一些常用的供参考(适用于伪静态模式下的永久链接):
* 禁止:/page/ #Limit 抓取 Wordpress 分页
* Disallow: /category/*/page/* #限制分页的爬取类别
* Disallow: /tag/ #限制对标签页的抓取
* Disallow: */trackback/ #Restrict Trackback 内容的抓取
* Disallow: /category/* #限制爬取所有类别列表
最后,推荐使用谷歌管理员工具。登录后,访问“工具->分析robots.txt”检查文件的有效性。