抓取网页数据工具( 2019-12-14如何改善网站收录?(图))
优采云 发布时间: 2022-04-02 16:05抓取网页数据工具(
2019-12-14如何改善网站收录?(图))
网站优化建议如何改进网站收录
作者:Yadmin 日期:2019-12-14
我该如何改进网站收录?让我写一些实用的内容来看看SEO优化是如何工作的。首先澄清一些基本点,一个网页是否是收录,有两个因素
在上一篇文章中,文章已经提到了收录的速率。许多 网站 都懒得这样做。没有这个指标,很多工作都无法开始。从数据中发现问题,用数据指导企业,通过数据分析验证工作成果。最近看了《简单策略中的数据分析》一书,觉得不错。数据分析的方法描述得淋漓尽致。建议对数据分析感兴趣的同学可以购买此书阅读。任何数据分析都收录四个步骤:目标->分析->评估->决策。
目标:快影lx官网想看看网站的收录怎么样,SEO优化有没有改进的机会。
分析:收录什么是好坏?是通过一些指标来衡量的吗?是不是网上网站seo优化站的收录情况太笼统了,要不要细分每个页面的收录情况?
评价:所以快影lx官网需要以下部分数据
可以从 Google Analytics 中过滤出 SEO 优化流量的百分比。
页数可以从数据库中获取,也可以通过优采云或者自制的小脚本来抓取。
收录rate可以通过工具搜索获取的页面,优采云也可以。
问题马上就显现出来了!
1+2级目录页带来的流量很大,收录率不是很好。这是收录流量优化的突破口!
产品页面很多,收录并不理想,但带来的流量有限。除了收录的问题,还有页面内容的问题,本文忽略。
决定:快影官网的结论是立即采取行动优化目录页面收录。
看到这里,好像一开始的目标:“通过优化收录增加流量”
演变成一个新目标:“如何增加收录目录页面的体积”
我们可以使用数据分析再次优化SEO吗?
答案是肯定的!
让我们再过一遍目标->分析->评估->决策的过程
目标:增加 收录 目录页面的数量
分析:通过本文开头收录相关的两个因素,快影lx官网需要检查网页是否被爬虫抓取,网页质量是否通过检测。
1.快影官网爬虫的情况,快影官网需要分析日志来判断。于是快影lx官网从日志中拆分出一系列数据,看页面是否真的被爬取过。
2. 由于页面质量似乎是一个很难衡量的值,所以快影lx的官网可以使用相同的模板:
已爬取/爬取的页面数和 收录 页数
评估模板页面质量对 收录 的影响。如果爬取的页面都是收录,那么至少这个页面的内容是被搜索引擎识别的。(实际情况远比这个复杂,可能会在收录之后因为质量问题被删除,但总比没有参考好对吧!)
评价:(敏感信息换成序列号,全部真实数据)
我们先来看看爬虫日志的情况。通过shell脚本,快影官网可以分析。
目录被爬取的总次数约为13000次
唯一目录爬取次数约为5500次
A频道几乎100%的目录至少被爬过一次,B频道的目录也爬得很好,70%至少被爬过一次。
剩余被抓取渠道下的目录覆盖率低于30%
不要以为这个结果很神奇。事实上,很多网站都会面临这样糟糕的问题。只要不断地对数据进行细分、细分、细分,总会观察到一些端倪。
Kuaiyinglx官网日志分析,不要迷信任何日志分析软件,那就是优采云,自制脚本+Excel为王,你可以拆分显示任何你想要的数据,当然,甚至你甚至不需要 Excel。
然后,快影lx官网统计了最常抓到的A频道和B频道,以及目录页的收录率
频道A和B都很让人放心,说明页面质量没有问题,但是剩下的收录情况就更让人担心了。
决策:通过以上数据评估,公司得出以下结论。
页面质量不是影响 收录 的因素。
A、B通道爬取量异常高。经查,原来是快影官网的目录页。展示了A频道下的所有目录页面。快影lx官网也是全站权重最高的。B渠道比其他渠道拥有更强的外链资源,权重也很高。
除A、B频道外,其他频道的爬取情况不容乐观。爬行入口太少太深,进而影响收录的情况。
很显然,现在A频道从站内角度来说太强大了,必须进行一些“劫富济贫”的运动,减少A频道的爬行量,转移到其他频道。同时,需要为爬虫提供更多的入口来爬取频道页面。
既然问题已经清楚了,快影官网已经开始将工作分为两部分:1.提供更多入口2.将资源平均分配到各个渠道,而不是专注于几个渠道。
提供工作入口:
1.将目录页面的 URL 制作成站点地图。将其提交给搜索引擎,并将其设置为相对较高的抓取权重。
2.改进面包屑导航,将面包屑导航划分为更多细节,提供更多入口
3.其他产品中的推荐目录页面
资源共享工作:(一些概念:任何页面都可能成为爬虫入口。百度爬虫的爬取深度有限,页面相对入口越浅,被爬取的概率越高。)
1. 原来快影lx 快影官网指向A频道的目录页+产品页,nofollow全部确保所有从快影lx快影lx官网进入的爬虫都被抓到频道页,然后进入目录通过频道页翻页(其实这个并不太重要)
2.原频道页指向自己的商品页,nofollow全部(保证爬虫从频道页入口,最大程度爬取目录页)
3.从目录页返回到公司官网的链接,nofollow全部。
4.减少某些页面上的不相关链接。(这在任何情况下都非常有效。)
现在你可以开始了。.
成就
这样做有什么效果,我们来看看快影lx官网修改后一个月的数据。
目录页 收录 率提高了 100%!
产品页面的收录率也有一定的提升,这得益于产品在目录页面的良好展示。
目录页面的SEO优化性能:
SEO优化流量占比提升15%
访问次数增加 10% 关键词(收录 用于新页面)
SEO 优化的流量增加了 50% 以上。(包括一些季节性因素)
评论:
1.除了收录,排名也是个问题,可以同时关注。
2.对于通道A这样的特殊情况,甚至可以完全阻塞,但是在技术上实现起来有点麻烦。
3.百度对nofollow的支持据说很混乱。任何了解百度内部人士的人都可以寻求帮助。
4.有什么问题可以留言~
-亿豪网络专业网站优化营销专家,多年研究在线优化技术和营销新方法。公司成立8年来,已服务近1000家企业用户,多家500强企业并达成战略性快赢lx官网。
专业的SEO技术团队让有需要的客户找到您,亿豪网络为您提供专业的搜索引擎优化推广服务,站外站内优化,亿豪让您的企业从互联网流量和品牌收益中获得更多自由!