php 搜索引擎优化(搜索引擎那些目录可以爬吗?.txt的用法)

优采云 发布时间: 2021-10-28 01:22

  php 搜索引擎优化(搜索引擎那些目录可以爬吗?.txt的用法)

  WordPress 从 2. 的第 1 版开始,隐私选项允许用户设置是否被搜索引擎索引。但它只有两种选择,一种是允许所有搜索引擎机器人(Spider)索引所有内容,另一种是不允许。其实robots.txt的用途很多,我们可以用它来告诉搜索引擎哪些目录可以爬,哪些不能爬。

  防止蜘蛛爬取WordPress中的某些目录和文件,不仅可以有效节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名。

  对于使用 WordPress 构建的博客,robots.txt 文件用于限制搜索引擎抓取某些目录和文件。大致有以下几种方法。

  最简单的开放式写法:

  用户代理:*

  禁止:

  使用说明:允许所有蜘蛛访问,允许访问所有内容。只要模板中的链接设计合理,没有需要限制的特殊内容,建议采用这种写法。

  最简单严格的写法:

  用户代理:*

  禁止:/wp-*

  #Allow: /wp-content/uploads/

  禁止:/*.php$

  禁止:/*.inc$

  禁止:/*.js$

  禁止:/*.css$

  禁止:/?s=

  使用说明:允许所有蜘蛛访问,限制以“wp-”开头的目录和文件,限制爬取.php文件、.inc文件、.js文件和.css文件,限制爬取搜索结果。

  禁止:/wp-* 将限制抓取和附件目录。如果您希望搜索引擎抓取附件的内容,请删除第三行的 # 注释。并非所有搜索引擎都支持允许。

  最合理的写法:

  用户代理:*

  禁止:/wp-admin

  禁止:/wp-content/plugins

  禁止:/wp-content/themes

  禁止:/wp-includes

  禁止:/?s=

  站点地图:

  使用说明:允许所有搜索引擎爬取,一一列出需要限制的目录,限制搜索结果爬取。

  收录sitemap.xml地址(这一项在wiki有专门说明,但是谷歌管理员工具会提示'invalid Sitemap reference detected',有效性仍有争议)。

  robots.txt的其他书写方式:为了避免搜索引擎中出现重复页面,Wordpress玩家创造了很多robots的书写方式,并列出了一些常用的供参考(适用于伪静态模式下的永久链接) :

  * 禁止:/page/ #Limit 抓取 Wordpress 分页

  * Disallow: /category/*/page/* #限制分页的爬取类别

  * Disallow: /tag/ #限制对标签页的抓取

  * Disallow: */trackback/ #Restrict Trackback 内容的抓取

  * Disallow: /category/* #限制爬取所有类别列表

  最后,推荐使用谷歌管理员工具。登录后,访问“工具->分析robots.txt”检查文件的有效性。

  声明:本站所有文章,除非另有说明或标注,均在本站原创上发布。任何个人或组织,未经本站同意,不得复制、盗用、采集、将本站内容发布到网站、书籍等任何媒体平台。本站内容侵犯了原作者的合法权益,您可以联系我们进行处理。

  

  Wops 终身 VIP

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线