seo网站日志分析工具(通过分析网站日志Log文件(一)_常用日志分析工具)

优采云 发布时间: 2021-12-06 14:11

  seo网站日志分析工具(通过分析网站日志Log文件(一)_常用日志分析工具)

  通过分析网站日志文件,我们可以看到用户和搜索引擎蜘蛛访问网站的行为数据。这些数据让我们可以分析用户和蜘蛛对网站和网站健康的偏好。在网站日志分析中,我们主要需要分析蜘蛛行为。

  在蜘蛛爬取和收录的过程中,搜索引擎会为特定的权重网站分配相应数量的资源。一个对搜索引擎友好的网站应该充分利用这些资源,让蜘蛛能够快速、准确、全面地抓取有价值的、用户喜欢的内容,而不会将资源浪费在无用和异常可访问的内容上。

  

  但是由于网站日志中的数据量太大,我们一般需要使用网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、网络日志浏览器。

  分析日志时,我们需要分析一个单日日志文件的内容:访问次数、停留时间、爬取量、目录爬取统计、页面爬取统计、蜘蛛访问IP、HTTP状态码、蜘蛛活跃期、蜘蛛爬行路径等;对于多日日志文件,我们需要分析内容:蜘蛛访问趋势、停留时间趋势、整体抓取趋势、各目录抓取趋势、抓取时间段、蜘蛛活跃期等。

  我们来看看如何分析网站日志?

  网站 日志数据分析解读:

  1、访问次数、停留时间、抓取量

  从这三个数据我们可以知道:平均每次爬取的页面数,单页爬取的停留时间,每页的平均停留时间。

  每次平均爬取的页面数=总爬取量/访问次数

  单页抓取停留=每次停留/每次抓取

  平均停留时间=总停留时间/访问次数

  从这些数据中,我们可以看到蜘蛛的活跃度、亲和力、抓取深度等,总访问次数、停留时间、较高的抓取量、平均抓取的页面、平均停留时间,说明网站 更多 被搜索引擎喜欢。单页爬取的停留时间表示网站的页面访问速度。时间越长,网站的访问速度越慢,不利于搜索引擎抓取收录。我们应该尽量提高页面加载速度,减少单站停留时间,让爬虫资源抢到更多收录。

  此外,基于这些数据,我们还可以计算出网站在一段时间内的整体趋势表现,比如蜘蛛访问量趋势、停留时间趋势、爬取趋势等。

  

  2、 目录爬取统计

  通过日志分析,我们可以看到蜘蛛喜欢哪些目录,爬取目录的深度,重要页面目录的爬取状态,以及无效页面目录的爬取状态。通过对比页面爬取和目录中收录的情况,可以发现更多的问题。对于重要的目录,需要通过内外部调整增加权重和爬取;对于无效页面,请在 robots.txt 中阻止它们。

  另外,通过多天的日志统计,我们可以看到现场和非现场行为对目录的影响,优化是否合理,是否达到了预期的效果。对于同一个目录,从长期的时间段来看,我们可以看到目录中页面的性能,并根据行为推测性能的原因。

  3、页面抓取

  在网站的日志分析中,我们可以看到蜘蛛抓取的具体页面。在这些页面中,我们可以分析蜘蛛抓取了哪些需要禁止抓取的页面,哪些页面没有值收录,哪些重复的页面URL被抓取过等等,以便充分利用蜘蛛资源。这些地址需要在robots.txt中禁止爬取。

  另外我们也可以分析一下页面不是收录的原因。对于新的文章,不是收录,因为没有被爬取,或者被爬取了但没有释放。对于一些阅读意义不大的页面,我们可能需要它作为一个爬取通道。对于这些页面,我们是否应该制作 Noindex 标签等?但另一方面,蜘蛛会不会弱智到靠这些毫无意义的频道页面来爬取页面?蜘蛛不懂站点地图?对此,我仍有疑问。

  4、蜘蛛访问IP

  曾经有人提出通过蜘蛛的ip段来判断网站的功耗降低。我觉得这个意义不大,因为太事后诸葛亮了。而更多的功率降低应该从前三个数据来判断,用单个ip段来判断是没有意义的。IP分析的更多用途应该是判断是否存在采集蜘蛛、假蜘蛛、恶意点击蜘蛛等。

  

  5、访问状态码

  蜘蛛经常出现的状态码,如301、404等,这些状态码要及时处理,避免对网站造成不良影响。

  6、 抓取时间段

  通过对多个蜘蛛单日抓取量的分析比较,我们可以了解特定蜘蛛在特定时间对这个网站的活跃期。通过比较每周数据,我们可以看到特定蜘蛛在一周内的活跃周期。理解这一点对于网站的内容更新时间有一定的指导意义,之前所谓的小三四是不科学的。

  7、 蜘蛛爬行路径

  在网站日志中,我们可以跟踪到特定IP的访问路径。如果我们跟踪一个特定蜘蛛的访问路径,我们可以在这个网站结构下找到蜘蛛的爬行路径偏好。因此,我们可以适当地引导蜘蛛的爬行路径,让蜘蛛爬取更重要、更有价值、新更新的页面。在爬取路径中,我们可以分析页面物理结构的路径偏好和url逻辑结构的爬取偏好。通过这些,我们可以从搜索引擎的角度审视我们自己的网站。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线