wordpress 搜索引擎优化(robots的robots.txt优化设置及注意事项(二))
优采云 发布时间: 2021-12-12 18:01wordpress 搜索引擎优化(robots的robots.txt优化设置及注意事项(二))
用户代理: *
禁止:/wp-
一、 首先普及一下robots.txt的概念:
robots.txt(统一小写)是存放在网站根目录下的ASCII编码文本文件。它通常告诉网络搜索引擎的机器人(也称为网络蜘蛛),在这个网站中哪些内容是搜索引擎机器人无法获取的,哪些内容可以由(机器人)获取。该文件用于在您的网站上指定蜘蛛的抓取范围,在一定程度上保护网站的安全和隐私。它也是一个网站优化工具,例如拦截和捕获网站的重复内容页面。
Robots.txt 目前不是标准,而是协议!所以现在很多搜索引擎对robots.txt中的命令参数有不同的处理方式。
二、使用robots.txt时需要注意的几点:
1、 命令区分大小写,忽略未知命令。下图是本博客robots.txt文件在谷歌管理员工具中的测试结果;
2、 每行代表一个命令,空格和隔行将被忽略;
3、“#”号后的字符参数将被忽略;
4、 有单独的User-agent规则,会被排除在通配符“*”之外的User agent规则;
5、 可以写一个站点地图文件的链接,方便搜索引擎蜘蛛抓取整个站点。
6、 尽量少使用Allow命令,因为不同的搜索引擎对不同位置的Allow命令的处理方式不同。
三、Wordpress robots.txt 优化设置
1、用户代理:*
一般来说,博客的robots.txt命令设置是面向所有蜘蛛程序,使用通配符“*”即可。如果有独立的User-agent指令规则,尽量把它放在通配符“*”User agent规则之上。
2、
禁止:/wp-admin/
禁止:/wp-content/
禁止:/wp-includes/
阻止蜘蛛抓取程序文件也节省了搜索引擎蜘蛛的资源。
3、禁止:/*/trackback
在每个默认的 文章 页面代码中,都有一个引用链接。如果不屏蔽,让蜘蛛抓到,网站就会出现页面内容重复的问题。
4、禁止:/feed
禁止:/*/饲料
禁止:/comments/feed
头部代码中的feed链接主要是提醒浏览器用户可以订阅这个站点,一般站点都有RSS输出和网站地图,所以为了节省蜘蛛资源,禁止搜索引擎抓取这些链接。
5、禁止:/?s=*
禁止:/*/?s=*
这个就不用解释了,屏蔽和捕获网站上的搜索结果。站点中没有这些链接并不意味着站点外没有这些链接。如果它们是收录,它们将类似于TAG和其他页面的内容。
6、禁止:/?r=*
屏蔽消息链接插件留下的变形消息链接。(当然不安装相关插件就不需要这个说明了)
7、禁止:/*.jpg$
禁止:/*.jpeg$
禁止:/*.gif$
禁止:/*.png$
禁止:/*.bmp$
任何图片文件的拦截和抓包,这里主要是为了节省一些宽带,不同的网站管理员可以根据自己的喜好和需要设置这些命令。
8、禁止:/?p=*
阻止和捕获短链接。百度等搜索引擎蜘蛛会尝试捕获默认标题中的短链接。虽然短链接最终会被301重定向到固定链接,但这仍然会造成蜘蛛资源的浪费。
9、禁止:/*/comment-page-*
禁止:/*?replytocom*
阻止并捕获消息链接。一般你不会收录去这样的链接,但是为了节省蜘蛛资源,他们也被屏蔽了。
10、禁止:/a/date/
禁止:/a/作者/
禁止:/a/category/
禁止:/?p=*&preview=true
禁止:/?page_id=*&preview=true
禁止:/wp-login.php
阻止其他各种链接以避免重复内容和隐私问题。
10、站点地图:***.com/sitemap.txt
网站地图地址指令,主流为txt和xml格式。告诉搜索引擎网站地图地址,方便搜索引擎抓取整个站点的内容。当然,您可以设置多个地图地址。需要注意的是Sitemap的S要大写,地图的地址也应该是绝对地址。
上面的 Disallow 命令不是强制性的,可以按需编写。也建议网站开启谷歌管理工具,检查网站的robots.txt是否标准。
好了,以上就是使用robots.txt优化wordpress博客的详细内容。希望对像我一样刚接触wordpress博客的同学有所帮助。
——
本文摘录: