网站日志数据分析教程

优采云 发布时间: 2022-06-06 21:45

  网站日志数据分析教程

  网站日志的数据分析主要是使用相关工具进行,工具类型也有很多。

  网页版可以用拉格好(),桌面版可以用爱站或者光年,也可以使用shell分析日志。。。

  分析日志的作用有很多,可以概括几点:

  1.了解蜘蛛对页面的抓取情况,合理分配网站内链,优化抓取路径;

  2.统计栏目页面的流量数据情况,对其做相应的策略调整(例如数据下降,可以分析原因,对另外一个栏目页面做AB测试进行观察等等);

  3.提取出404页面,提交给百度进行处理;

  4.如果是网站被黑,可以分析日志查看网站操作记录,以及找出假的百度蜘蛛IP等;

  将日志文件下载至本地,我这里是宝塔,一般在www根目录可以找到日志文件。

  使用网页版功能有限,只能看出来蜘蛛的抓取数量和返回代码情况,如图:

  

  关于蜘蛛数量那里应该都看得懂,顺便解释下上面显示的低权重IP和权重IP(大神略过,据说科普)。

  据说,百度创始以来,对蜘蛛是有分类的,有的蜘蛛专门抓取图片,有的专门抓取视频,有的专门抓取内容。。。。

  这些ip统称为低权重ip(我也不知道哪里听来的),专门抓取新站或者是低质量的页面,新站在此期间应该这个类型123.125.71.*的ip,来的频率会灰常多。

  123.125.71.95

  123.125.71.97

  123.125.71.117

  123.125.71.71

  123.125.71.106

  那如果是一个老网站,这个频率的ip突然增加,那就要注意了,很有可能在被K或是降权的边缘。。。。

  这个ip上面显示隔日快照,意思就是被他抓取过的页面,不出意外第二天都会被收录,或者快照会有更新。

  220.181.108.95

  这些ip称为所谓的“高权重ip”,即220.181.108.*,被他们抓取过的页面,收录速度和更新速度都会很快。

  220.181.108.75

  220.181.108.92

  220.181.108.91

  220.181.108.86

  220.181.108.89

  220.181.108.94

  220.181.108.97

  220.181.108.80

  220.181.108.77

  220.181.108.83

  好的,ip段普及完了。。。。

  在来看看左侧,可以看到一大串代码段。

  

  其实我们截取一个完整的字段是这样的:

  <p style="margin-left: 16px;margin-right: 16px;line-height: 1.75em;">123.125.71.12 - - [07/May/2019:11:21:56 +0800] 'GET /gzjysc/83.html HTTP/1.1' 200 8274 '-' 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)'</p>

  一个个来看,都是什么意思。。。。

  123.125.71.12:访问的ip;

  07/May/2019:11:21:56 +0800:访问的时间段;

  GET /gzjysc/83.html:访问的URL;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线