php 搜索引擎优化(搜索引擎那些目录可以爬吗?.txt的用法)
优采云 发布时间: 2021-10-28 01:22php 搜索引擎优化(搜索引擎那些目录可以爬吗?.txt的用法)
WordPress 从 2. 的第 1 版开始,隐私选项允许用户设置是否被搜索引擎索引。但它只有两种选择,一种是允许所有搜索引擎机器人(Spider)索引所有内容,另一种是不允许。其实robots.txt的用途很多,我们可以用它来告诉搜索引擎哪些目录可以爬,哪些不能爬。
防止蜘蛛爬取WordPress中的某些目录和文件,不仅可以有效节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名。
对于使用 WordPress 构建的博客,robots.txt 文件用于限制搜索引擎抓取某些目录和文件。大致有以下几种方法。
最简单的开放式写法:
用户代理:*
禁止:
使用说明:允许所有蜘蛛访问,允许访问所有内容。只要模板中的链接设计合理,没有需要限制的特殊内容,建议采用这种写法。
最简单严格的写法:
用户代理:*
禁止:/wp-*
#Allow: /wp-content/uploads/
禁止:/*.php$
禁止:/*.inc$
禁止:/*.js$
禁止:/*.css$
禁止:/?s=
使用说明:允许所有蜘蛛访问,限制以“wp-”开头的目录和文件,限制爬取.php文件、.inc文件、.js文件和.css文件,限制爬取搜索结果。
禁止:/wp-* 将限制抓取和附件目录。如果您希望搜索引擎抓取附件的内容,请删除第三行的 # 注释。并非所有搜索引擎都支持允许。
最合理的写法:
用户代理:*
禁止:/wp-admin
禁止:/wp-content/plugins
禁止:/wp-content/themes
禁止:/wp-includes
禁止:/?s=
站点地图:
使用说明:允许所有搜索引擎爬取,一一列出需要限制的目录,限制搜索结果爬取。
收录sitemap.xml地址(这一项在wiki有专门说明,但是谷歌管理员工具会提示'invalid Sitemap reference detected',有效性仍有争议)。
robots.txt的其他书写方式:为了避免搜索引擎中出现重复页面,Wordpress玩家创造了很多robots的书写方式,并列出了一些常用的供参考(适用于伪静态模式下的永久链接) :
* 禁止:/page/ #Limit 抓取 Wordpress 分页
* Disallow: /category/*/page/* #限制分页的爬取类别
* Disallow: /tag/ #限制对标签页的抓取
* Disallow: */trackback/ #Restrict Trackback 内容的抓取
* Disallow: /category/* #限制爬取所有类别列表
最后,推荐使用谷歌管理员工具。登录后,访问“工具->分析robots.txt”检查文件的有效性。
声明:本站所有文章,除非另有说明或标注,均在本站原创上发布。任何个人或组织,未经本站同意,不得复制、盗用、采集、将本站内容发布到网站、书籍等任何媒体平台。本站内容侵犯了原作者的合法权益,您可以联系我们进行处理。
Wops 终身 VIP