不懂真人这篇文章:实时分析日志的python小脚本
优采云 发布时间: 2021-07-29 23:37
不懂真人这篇文章:实时分析日志的python小脚本
分享一个python实时分析日志的小脚本
更新时间:2017-05-07 15:56:56 作者:不认识真人
这个文章主要分享一个小的python脚本,用于日志的实时分析。文章给出了详细的介绍和示例代码,供大家参考学习。对大家学习或使用python有一定的参考学习价值。有需要的朋友,一起来看看吧。
前言
大家都知道web运维时刻关注相关域名的实时2xx/s、4xx/s、5xx/s、响应时间、带宽等指标。上一篇日志分为五分钟。简单地使用awk。好的,现在因为要推送日志到ELK,所以在继续之前的五分钟拆分会有问题,所以每天拆分一次。改成一天后,继续用Shell显然不合适,所以我用Python写的。
方法如下:
该脚本主要使用文件的seek和tell函数。原理如下:
1.加入crontab,每5分钟执行一次
2.只分析从上次读取的日志文件的结束位置到本次读取的文件的结束位置的日志,并输出结果
可以使用zabbix_sender将结果发送到zabbix server或者直接使用zabbix agent读取这个文件并获取数据,配合zabbix输出图片和报警,代码如下:
#!/usr/bin/env python
#coding: utf-8
from __future__ import division
import os
LOG_FILE = '/data0/logs/nginx/xxxx-access_log'
POSITION_FILE = '/tmp/position.log'
STATUS_FILE = '/tmp/http_status'
#crontab 执行时间
CRON_TIME = 300
def get_position():
#第一次读取日志文件,POSITION_FILE为空
if not os.path.exists(POSITION_FILE):
start_position = str(0)
end_position = str(os.path.getsize(LOG_FILE))
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
os._exit(1)
else:
fh = open(POSITION_FILE)
se = fh.readlines()
fh.close()
#其他意外情况导致POSITION_FILE内容不是两行
if len(se) != 2:
os.remove(POSITION_FILE)
os._exit(1)
last_start_position,last_end_position = [item.split(':')[1].strip() for item in se]
start_position = last_end_position
end_position = str(os.path.getsize(LOG_FILE))
#日志轮转导致start_position > end_position
#print start_position,end_position
if start_position > end_position:
start_position = 0
#日志停止滚动时
elif start_position == end_position:
os._exit(1)
#print start_position,end_position
fh = open(POSITION_FILE,'w')
fh.write('start_position: %s\n' % start_position)
fh.write('end_position: %s\n' % end_position)
fh.close()
return map(int,[start_position,end_position])
def write_status(content):
fh = open(STATUS_FILE,'w')
fh.write(content)
fh.close()
def handle_log(start_position,end_position):
log = open(LOG_FILE)
log.seek(start_position,0)
status_2xx,status_403,status_404,status_500,status_502,status_503,status_504,status_all,rt,bandwidth = 0,0,0,0,0,0,0,0,0,0
while True:
current_position = log.tell()
if current_position >= end_position:
break
line = log.readline()
line = line.split(' ')
host,request_time,time_local,status,bytes_sent = line[1],line[3],line[5],line[10],line[11]
#print host,request_time,time_local,status,bytes_sent
status_all += 1
try:
rt += float(request_time.strip('s'))
bandwidth += int(bytes_sent)
except:
pass
if status == '200' or status == '206':
status_2xx += 1
elif status == '403':
status_403 += 1
elif status == '404':
status_404 += 1
elif status == '500':
status_500 += 1
elif status == '502':
status_502 += 1
elif status == '503':
status_503 += 1
elif status == '504':
status_504 += 1
log.close()
#print "status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME)
write_status("status_2xx: %s\nstatus_403: %s\nstatus_404: %s\nstatus_500: %s\nstatus_502: %s\nstatus_503: %s\nstatus_504: %s\nstatus_all: %s\nrt: %s\nbandwidth: %s\n" % (status_2xx/CRON_TIME,status_403/CRON_TIME,status_404/CRON_TIME,status_500/CRON_TIME,status_502/CRON_TIME,status_503/CRON_TIME,status_504/CRON_TIME,status_all/CRON_TIME,rt/status_all,bandwidth/CRON_TIME))
if __name__ == '__main__':
start_position,end_position = get_position()
handle_log(start_position,end_position)
看分析结果:
cat /tmp/http_status
status_2xx: 17.3333333333
status_403: 0.0
status_404: 1.0
status_500: 0.0
status_502: 0.0
status_503: 0.0
status_504: 0.0
status_all: 20.0
rt: 0.0782833333333
bandwidth: 204032.0
后来发现了一个问题。 start_position和end_position使用字符串比较有问题,如下:
In [5]: '99772400' > '100227572'
Out[5]: True
In [6]: int('99772400') > int('100227572')
Out[6]: False
因此,更正的是:
#日志轮转导致start_position > end_position
#print start_position,end_position
if int(start_position) > int(end_position):
start_position = 0
#日志停止滚动时
elif int(start_position) == int(end_position):
os._exit(1)
总结
以上是本次文章的全部内容。希望本文的内容对您的学习或工作有所帮助。有什么问题可以留言交流。感谢您对 Scripthome 的支持。