seo网站日志分析工具(这篇博客里面的内容全部吸收的话,日志分析常用的命令符用法)
优采云 发布时间: 2022-03-13 08:13seo网站日志分析工具(这篇博客里面的内容全部吸收的话,日志分析常用的命令符用法)
如果你吸收了本博客的所有内容,日志分析部分可以按照你能想到的维度进行分析。当然,任何好东西都需要付出才能得到它。如果你想吸收所有的内容,你必须学习一小部分shell脚本语言的使用。当然,学习一门语言的一小部分是一件非常简单的事情。市面上的日志分析工具都是摆设,光年也包括在内。我们可以根据我们能想到的各种维度来拆分和组合数据。得到我们想要的结果,不仅在SEO领域有用,在运营等各个领域都有用。
1、如果Windows下的用户要使用shell命令,请先安装cygwin。安装方法:Cygwin安装详解,快速安装所有插件,无需联网。
2、下面笔者简单介绍一下常用命令符号在SEO日志分析中的用法。如果您需要详细了解每个命令符号,请使用 Google
-i 不区分大小写 -v 显示所有不符合条件的行 -c 显示所有符合条件的行(合格的数量)
-c 计算文本的字节数 -m 计算文本中的字符数 -l 计算文本中的行数
-n 对文件进行数字排序 -r 反向排序
-c 显示数据重复的次数
-100(每100行拆分为一个文件) -C 25m/b/k(每25m/byte/K拆分为一个文件)
-F 后跟分隔符模式,这是执行操作的条件。这里可以使用正则表达式$n来表示数据条数。$0 表示整行数据。NF 表示当前记录的字段数。$NF 表示最后一个字段 BEGIN 和 END。这两个都可以用在pattern中,提供BEGIN和END的作用是给程序一个初始状态,并在程序结束后执行一些收尾工作: $ awk '{print $10}' baidu.log |awk 'BEGIN {total =0}{total+=$1}END{print total}' 计算baiduspider下载文件的总大小
3、这里介绍一些简单的命令字符。您需要了解外壳。建议您阅读相关书籍。让我们开始使用 shell 来分析日志。
日志格式如下:
少百度.log
百度日志
1、剪切百度的爬取数据(把文件剪切出来用专门的蜘蛛处理可以提高效率)
cat log.log |grep -i 'baiduspider' >baidu.log
2、网站查询状态码个数(状态码个数隐藏)
awk '{print $9}' baidu.log|sort|uniq -c|sort -nr
3、百度总爬取量
wc -l baidu.log
4、百度独有的爬取量
awk '{print $7}' baidu.log|sort|uniq|wc -l
5、百度每次爬取的平均数据大小(结果为KB)
awk '{print $10}' baidu.log|awk 'BEGIN{a=0}{a+=$1}END{ print a/NR/1024}'