seo网站日志分析工具(为什么要对网站日志进行分析?分析什么?(组图))
优采云 发布时间: 2021-09-30 20:20seo网站日志分析工具(为什么要对网站日志进行分析?分析什么?(组图))
《网站常用日志分析工具,如何从网站日志中提取404页面链接?》【张国伟博客】2018年8月26日发表!
网站常用日志分析工具,为什么需要分析网站日志?作为一名合格的seo优化师,网站日志分析是必不可少的seo工作。为什么需要分析网站日志?要分析什么?网站日志分析常用的工具有哪些?不着急,下面我们来详细说一说:
网站 常用的日志分析工具有以下两种,因为现在市面上的分析工具很多,只要能用这两种分析工具就够了。可以说,这两款分析工具真的是非常不错。在天作之合。一种是叫“拉格号”的日志分析工具,网址是“”;另一种是shell命令下的cygwin日志分析工具。
网站的日志分析的目的无非是为了让网站更好的进行seo优化。网站可以查询什么数据?可以知道搜索引擎蜘蛛的来龙去脉,知道它喜欢爬哪些页面,停留多长时间,爬虫来爬的时间段是什么?什么重量的蜘蛛来爬?什么蜘蛛来爬?还有很多。如下所示:
从图中可以看出,如果你的网站是大站,大站难免会被修改,而网站存在大量死链接等问题。当然,日志分析起着重要的作用。借助这些分析工具,您可以一步步解决。但是,Rager这个不错的分析工具并不能完全提取404等链接并保存在文件中。需要一一复制粘贴。如果有数千个 404 页怎么办?是不是有点不切实际?这也是它的缺陷。所以需要这个分析工具来配合“Cygwin”。这个工具可以从百度搜索“cygwin”首页第一个官网下载。
如何使用cygwin提取404页面链接?方法步骤如下:
1、还需要安装一个工具:Notepad++;
2、以百度搜索引擎蜘蛛抓取为例:打开cygwin,输入:pwd,即可知道你的安装路径;
3、 修改你下载的网站 日志到.log 并保存为文件。把这个文件放到安装目录下;如下所示:
4、 将百度爬取的所有链接分开;然后,用Notepad++打开刚才百度抓取到的所有链接的文档;
5、因为我们在找404页面的所有链接,所以我们找出状态码在哪一行,这里是第九行。这里一个圆圈代表一条线,即一个空格算作一条线。如下所示:
6、 找到404的所有页面后,我们要的是它的链接,所以找到要提取的链接数:但是可以看到404的所有链接,当然需要在链接前面加上你的域名,随便替换一下,然后把所有链接提交给百度站长后台。整个过程就结束了。当然,这里涉及到一些代码,可能有些人看不懂。没关系。我也把代码步骤发给大家,自己琢磨琢磨,学的就是我自己的。
Cygwin日志分析查询工具的使用步骤如下:
1、 分离蜘蛛:输入 cat 1.log|grep'Baiduspider'|head -5 并回车;
2、 然后输入:cat 1.log|grep'Baiduspider'>>baidu.txt;
3、再次判断404情况:统计状态码的命令:$ cat baidu.txt|awk'{print $9}'|sort|uniq -c 一行中这个“9”是什么意思?
4、 然后输入:$ cat baidu.txt|grep '404'>>404.txt 回车;
5、 然后输入:$ cat 404.txt|awk'{print $7}'>>baidu404.txt 回车;
6、查看一个链接被重复爬取的次数,然后为他做相应的nofollow操作:输入:cat baidu.txt|awk'{print $7}'|sort|uniq -c 回车你可以找到它;
查看你的列被爬取了多少次:输入:$ cat baidu.txt|awk'/hlw/'|sort|uniq -c 然后回车;如果网站以后没有出现收录,可以使用这种查询方式来解决问题的根源。好,张国伟就分享给大家!
seo教程:
请注明:张国伟博客»网站常用日志分析工具,如何从网站日志中提取404页面链接?
相关帖子:网站过多的404页面对网站的优化有什么危害?404页面怎么解决?seo教程:网站优化的知识,你知道什么是跳出率吗?什么是二次点击?从做网站开始,为什么要为网站做301?有什么好处?在一些网站平台上保持链接,对网站优化是好是坏?