wordpress 搜索引擎优化(如何利用WordPress网站的robots协议阻止搜索引擎收录无用的重复链接 )
优采云 发布时间: 2022-03-08 21:11wordpress 搜索引擎优化(如何利用WordPress网站的robots协议阻止搜索引擎收录无用的重复链接
)
wordpress中有很多重复的链接和无用的链接。第一类是按日期划分的标签页、作者页、存档页等页面,因为首页和首页的分页都收录这些文章;第二类是无用的短链接,比如文章草稿的浏览链接;第三类是一些无用的链接,比如RSS订阅链接,消息的变形链接。搜索引擎总是收录这些页面,导致大量收录和很多重复页面,从而降低了网站的搜索引擎友好度。以本站为例,当文章只有300多篇文章时,索引量可达近800篇,势必影响网站的SEO优化。
下面将详细介绍如何使用WordPress网站 的robots 协议来屏蔽搜索引擎收录 这些无用的、重复的链接。
1、用户代理:*
一般网站的robots协议设置是针对所有蜘蛛程序的,使用通配符“*”即可。如果有独立的 User-agent 指令规则,尽量放在通配符“*”User-agent 规则的上方。
2、禁止:/wp-admin/
禁止:/wp-content/
禁止:/wp-includes/
这些目录是WordPress的核心程序代码,可以屏蔽蜘蛛抓取程序文件,节省搜索引擎蜘蛛资源。
3、不允许:/*/trackback
每个默认的 文章 页面代码都有一个引用链接。如果不阻止蜘蛛抓取,网站就会出现重复页面内容的问题。
4、禁止:/feed
禁止:/*/feed
禁止:/comments/feed
头部代码中的feed链接主要是为了提示浏览器用户订阅这个站点,一般站点都有RSS输出和网站的地图,所以被搜索引擎屏蔽去抓取这些链接,节省蜘蛛资源。
5、不允许:/?s=*
不允许:/*/?s=*
阻止并捕获网站上的搜索结果。如果这些链接没有出现在网站上,并不意味着它们不存在于网站之外。如果收录是,会导致TAG等页面内容相似。
6、不允许:/?r=*
屏蔽消息链接插件留下的变形消息链接。(当然,如果没有安装相关插件,则不需要此命令)
7、禁止:/*.jpg$
禁止:/*.jpeg$
禁止:/*.gif$
禁止:/*.png$
禁止:/*.bmp$
阻止和捕获任何图片文件主要是为了节省一些带宽。不同的网站 管理员可以根据自己的喜好和需要来设置这些命令。
8、不允许:/?p=*
阻止捕获短链接。百度等搜索引擎蜘蛛会尝试捕获默认标头中的短链接。虽然短链接最终会被重定向到带有301的固定链接,但这仍然会造成蜘蛛资源的浪费和页面重复。
9、不允许:/*/comment-page-*
不允许:/*?replytocom*
阻止链接以捕获消息信息。一般你不会收录访问这样的链接,但是为了节省蜘蛛资源,它们也被屏蔽了。
10、禁止:/a/date/
禁止:/a/author/
禁止:/a/category/
不允许:/?p=*&preview=true
不允许:/?page_id=*&preview=true
禁止:/wp-login.php
阻止其他各种链接以避免重复内容和隐私问题。
10、站点地图:***.com/sitemap.txt
一般在robots协议中加入网站映射地址指令,主流为txt和xml格式。告诉搜索引擎网站地图地址,方便搜索引擎抓取全站内容。当然,您可以设置多个地图地址。需要注意的是Sitemap的S要大写,地图地址也应该是绝对地址。
当robots协议更新时,您可以使用百度或谷歌的管理员工具来验证特定连接是否被阻止或允许收录来测试robots协议的有效性。下图展示了在百度站长平台针对特定链接测试的robots协议的有效性。