seo网站日志分析工具(《网站日志应该分析哪些数据?》系列之站点管理员)
优采云 发布时间: 2021-10-15 17:12seo网站日志分析工具(《网站日志应该分析哪些数据?》系列之站点管理员)
网站日志中应该分析哪些数据?从基本信息、目录抓取、周期抓取、IP抓取、状态码等进行分析。
一、基本情况
下载网站日志文件工具,获取基本信息:总抓取量、停留时间(H)和访问次数;通过这三个基本信息,我们可以计算出每次爬取的平均页面数和单页爬取爬虫的停留时间,然后通过MSSQL提取爬虫的爬取量,并计算出爬虫的重复爬取率对以上数据
统计一段时间内的整体趋势,可以发现问题,调整网站的整体策略。以下是站点管理员的基本日志信息示例:
从日志的基本信息来看,我们需要看到整体趋势的调整,以及哪些方面需要加强。
从这个总体趋势可以看出,爬取总量在减少,所以我们需要做一些相应的调整。
总的来说,重复爬行的速度略有增加。这需要一些细节,更多的爬行入口,以及机器人的使用和跟随技巧。
爬虫单边停留时间,一旦看到软文书,网页加载速度如何影响SEO流量;提高网页加载速度,一方面减少爬虫的停留时间,有助于增加爬虫的总爬虫量,进而增加网站的采集量,从而增加网站@的整体流量>. 服务器16到20有一些问题,调整后速度明显提高,单页停留时间相应缩短。
相应的调整如下:
按照这个月的时间表,爬虫的数量在减少,重复爬虫的速度在增加。综合分析需要从站内外调整。网站 中的链接应该有尽可能多的锚文本。如果不能,可以在其他页面上推荐超链接,以便蜘蛛尽可能深入地捕捉它们。因此,非网站 链接需要通过多种方式发布。目前平台太少。如果深圳新闻网、上海国家网等网站出现错误,将严重影响我们的网站。站外平台要广,发布的链接要多样化,不能直接发到首页的要加强。目前场外交易平台太少。
二、目录爬取
使用MSSQL提取爬虫爬取的目录,分析每天爬取的目录数。可以清楚的看到每个目录的爬取情况。另外,还可以对比之前的优化策略,看看优化是否合理,关键列优化是否达到了预期的效果。
绿色:主栏 *敏*感*词*:无法捕捉 粉红色:无法捕捉 深蓝色:禁止栏
我们可以看到整体趋势变化不大,但是两栏的截图变化很大。
总体不太确定。在主栏,较少爬取的是:XXX, XXX, XXX。一般来说,我们需要增加整个网站的导入端口,配合外链,加强站内内链的建设。要加强薄弱环节的处理。同时,将深蓝色列写入机器人中进行拦截,并将网站导入这些列中进行URL nofollow,避免权重只有内外。
三、时间段抓拍
通过Excel中的数组函数,提取爬虫每日爬取时间段,重点分析每日爬取情况,找出对应爬取强度较高的时间段,有针对性地更新内容。同时可以看到爬取异常。
在一天中的哪个时间出现问题,它总是呈下降趋势。
我们通过时间段捕获进行了相应的调整:
通过图中的表格颜色,我们可以看出服务器并不是特别稳定。我们需要加强服务器的稳定性。另外,17、18天和19天,连续攻击挂链,但爬行正常,说明这些网站已经产生了一定的影响!
四、IP段捕获
通过MSSQL从日志中提取爬虫的IP,通过Excel进行统计。我们还需要每天检查每个IP的数量。如果IP领域没有明显变化,网站的推广权问题不大。因为当网站升级或降级时,爬虫的IP段会发生变化。
五、状态码统计