php禁止网页抓取(百度不收录内容页面的原因及解决方法原因分析)
优采云 发布时间: 2022-04-10 10:32php禁止网页抓取(百度不收录内容页面的原因及解决方法原因分析)
相信很多网站都会遇到百度没有收录内容页面的现象,而通过站长统计工具查看流量来源,你会发现大部分流量来自网站的编辑尾部关键词,即网站的内容页,一旦百度不收录内容页,将对获取 网站 流量。如果你的网站也有百度没有收录内容页面的现象,那就跟我一起仔细分析一下原因吧。
百度没有收录内容页面的原因:
1、 网站内容质量太低
网站内容质量低是百度不收录的主要原因。8月22日,百度正式公布新算法“百度算法升级,将影响作弊网站收录和低质量内容”。在“站点排序”中,百度关注的是内容质量低的站点,尤其是采集内容的站点。所以,网站看来百度没有收录内容页面,先看看你的网站内容是否优质?
解决方法:调整网站内容的质量。如果网站的内容被复制粘贴,那么增加每日原创文章的数量,或者调整网站内容页面的布局,比如增加用户评论功能并添加相关文章推荐,旨在降低页面相似度,从而解决百度没有收录内容页面的现象。
2、 百度蜘蛛频繁爬取其他页面
排除网站的内容质量低的因素,网站的内容页仍然不是收录,然后查看网站的日志看百度蜘蛛是否针对某些目录和Pages经常被爬取,造成爬取的浪费。对搜索引擎爬取过程有一定了解的朋友都知道,百度蜘蛛每天对一个站点的爬取时间是有限的。页面爬取不充分、爬取不充分的现象。
解决方法:查看网站日志,屏蔽频繁爬取的页面,让百度蜘蛛在有限的时间内爬取更多的其他内容页面。
3、 其他因素总结
百度没有收录内容页面的原因有很多,比如:服务器因素、网站改版因素、网站大量死链接、网站链接深度因素太深了。
解决方案:服务器的稳定性很重要。如果网站长时间打不开,对百度对内容页的爬取是致命的;网站 不要频繁修改标题和描述信息以进行修订。;使用工具检测网站中是否存在大量死链接,并清除或阻止死链接爬取;如果链接地址太深,可以调整链接结构,因为目录太深的内容,百度蜘蛛很难抓取,甚至无法抓取。
以上,我总结了百度没有收录内容页面的三个原因,那么在实践中,如果使用了呢?下面是一个成功解决我的网站出现百度收录内容页面的例子。
先来看看百度收录近几天的情况表:
从图中数据可以看出,百度没有收录内容页面的现象在9月2日出现,经过调整在9月9日得到解决。
网站自推出以来,虽然是以论坛的形式,但我对论坛的内容管理非常严格。可以排除网站内容质量低的原因。根据服务器的监控数据,网站的服务器最近一段时间运行正常,其他因素不多。看看百度蜘蛛爬不爬的问题。
上图是通过网站的日志分析软件统计的9月2日到9月5日百度蜘蛛爬取目录的数据。发现百度蜘蛛频繁爬取/bbx目录。这个目录是方便宝箱的链接。现在很多本地论坛都用这个插件,里面的内容重复性极强。
于是我对/bbx链接进行了nofollow控制,阻止百度蜘蛛爬取这个目录。同时,在 robots.txt 文件中,我添加了 Disallow:/bbx 命令,以防止百度蜘蛛以双重权限爬取该目录。终于在 9 月 9 日,百度开始将 收录 恢复到内容页面。
当网站出现百度没有收录内容页面时,站长需要仔细检查是否有百度不爬自己操作的原因。结合百度日志的分析,可以客观的发现问题,从而解决问题。如果你的网站也有百度没有收录内容页面的现象,你也不确定,可以联系王继顺,我很乐意帮你解决。
本文为北京人民论坛结合论坛实际情况的样本提要。转载请自带链接!