php禁止网页抓取(我负责的一个网站流量突然下降至5分之一的流量)
优采云 发布时间: 2021-11-07 14:11php禁止网页抓取(我负责的一个网站流量突然下降至5分之一的流量)
一月中旬,我负责的网站的流量,网站突然掉到了流量的五分之一。于是查了一下百度收录的金额。发现网站网站收录页数有9000多页,之前是13万多页。难怪流量下降这么明显。这个网站是一个论坛,7月份静态处理的。上线后不久,网站收录就正常了,没有大面积减少的迹象。由于网站的任务繁重,每天观察数据,没有明显的流量下降迹象。
它仅在 1 月中旬显着下降。通过观察收录的页面,发*敏*感*词*额,结果是0.
这令人困惑。我从来没有遇到过这样的问题。当时ZAC正在PHPWIND线上面试,所以我问了他这个问题。他当时的回答并没有解决我的问题。也许这个问题在其他地方很少发生。经过一一排查问题,很快,我终于找到了问题所在。原来,8月份,该技术修改了robots.txt文件。当时的语法是这样的:
#
#robots.txtforDiscuz!Board
#版本6.0.0
#
用户代理:*
不允许:/
禁止:/管理员/
禁止:/api/
禁止:/附件/
禁止:/自定义头像/
禁止:/图像/
禁止:/论坛数据/
禁止:/包括/
禁止:/ipdata/
禁止:/模板/
禁止:/插件/
禁止:/mspace/
禁止:/wap/
禁止:/admincp.php
禁止:/ajax.php
禁止:/digest.php
禁止:/logging.php
禁止:/member.php
禁止:/memcp.php
禁止:/misc.php
禁止:/my.php
禁止:/pm.php
禁止:/post.php
禁止:/register.php
禁止:/rss.php
禁止:/search.php
禁止:/seccode.php
禁止:/topicadmin.php
禁止:/space.php
不知道大家有没有发现上面的语法错误,其实错误已经很明显了。第一句错了。不应该被禁止:/
相反,允许:/或只是不写这句话,只需删除这句话。不要小看这三个额外的字母,而要让搜索引擎的蜘蛛停止抓取您的网页。网站收录 变化量开始缓慢下降,直到从搜索引擎数据库中删除。比如谷歌几乎相当于删除了这个网站页面。让百度蜘蛛误认为只有8080端口的页面才允许爬取。事实上,8080端口是无法访问的。为了尽量减少损失,我要求技术立即恢复对8080端口的访问。几天后,流量增加,网站收录的数量恢复到20000多,但它远不是130,000。谷歌收录也有2万多,收录很正常。然而,百度依然只有8080端口,偶尔会出现收录下的默认端口,动态占多数,静态占少数。根据论坛管理员后台数据,网站的整体流量下降了近3%2.
问题还在处理中,希望能尽快恢复交通。总结:作为SEO,一定要定期查看网站的robots.txt,建议每月一次,对技术人员进行SEO相关培训。让技术人员了解基本的SEO知识。最好为技术部门制定SEO规范。让大家有个参考。