seo网站日志分析工具(网站seo优化做得如何?整体趋势走向该去怎么调整)

优采云 发布时间: 2022-04-01 15:14

  seo网站日志分析工具(网站seo优化做得如何?整体趋势走向该去怎么调整)

  对于seo人员来说,必须学习的技能之一就是网站日志分析。因为我们只能从网站的日志和基于百度账号管理后台的数据大致了解我们的网站seo优化是怎么做的?总体趋势是如何调整,而不是所谓的网站一拿到就优化。

  前期准备提醒:

  [要安装和下载的工具是 Cygwin、Notepad++ 和 Excel 电子表格以及一个日志文件。】

  网上也有比较不错的网站日志分析工具。它用于网页上的在线分析。具体使用方法也很简单。只需输入你的网站 URL(这里随便填),然后导入你的网站日志文件,然后“点击分析”就大功告成了。在这里你可以看到你的站点在爬哪些搜索引擎收录,蜘蛛爬取的频率,以及哪个时间段?您可以清楚地看到哪些重量轻、重量高的蜘蛛会来抓它们。

  

  但唯一的缺点是没有一键导出数据的功能。对于大型网站来说,内容越多越麻烦。如果是博客之类的小网站,内容少,手动复制粘贴也很快。. 并且无法保证检测到的准确率是否为 100%。总的来说,cygwin分析的数据应该更准确、更专业。

  

  捕获的 网站404 错误页面

  让我谈谈Cygwin是什么。根据百度百科的解释:Cygwin是一个运行在windows平台上的类UNIX仿真环境,是一款免费开发的软件。它对于学习 UNIX/Linux 操作环境,或者将应用程序从 UNIX 移植到 Windows,或者对于一些特殊的开发工作,特别是对于使用 GNU 工具集在 Windows 上进行嵌入式系统开发非常有用。随着嵌入式系统开发在中国的日益普及,越来越多的开发者对 Cygwin 感兴趣。好吧,听太多官员的话也没有用。我们直接用它来进行网站日志分析,只是如何分析。

  在使用此工具之前,需要下载并安装它。貌似目前不支持苹果电脑的安装,windows系统是允许的。

  

  具体安装步骤在此不再详述。安装步骤是下一步。您可以搜索引擎以获取安装教程。这方面有很多教程。这里我们将直接谈谈如何使用这个工具。

  下载工具后,有一个地方需要注意。在你下载保存的某个路径下会有以下文件。都是缺一不可的,就这些文件:

  

  打开cygwin工具后,不知道这些文件在哪里。您可以通过输入“pwd”命令查看存储路径:

  

  我放在系统盘里

  

  好吧,知道了这些之后,我们的目的就是分析网站的日志。首先,下载你的网站的日志,命名好,我这里命名为1.log,然后把你的网站的日志放上去。下载的 1.log 日志文件与 5 个文件放在一起:

  

  这是第一步。下载日志文件后,我们需要通过它提取网站404错误页面。什么样的搜索引擎蜘蛛会抓取404错误页面。我们以“百度”为例。为:“百度蜘蛛”。

  提取过程如下,这里记下几个步骤:

  第一步:

  先分离出百度的蜘蛛,然后分成5段看效果,看能不能提取成功?输入命令为:

  cat 1.log|grep 'Baiduspider'|head -5

  

  第2步:

  发现正常输出说明百度搜索引擎蜘蛛已经来爬取我们的网站了,好吧,那就只提取百度搜索引擎蜘蛛爬取的所有信息,并将提取的信息命名为后缀。txt文件,为了方便确认,命名为“baidu.txt”,输入如下命令:

  cat 1.log|grep 'Baiduspider'>>baidu.txt

  

  输入命令回车后,1.log存放的目录文件中会多出一个baidu.txt文件,如下图:

  

  第三步:

  OK,我们把百度搜索引擎蜘蛛爬取的所有网页都提取出来,包括404、200、301状态码的页面,因为我们只需要提取404状态码的页面。

  这时候,为了找到对应状态码的位置,我们需要知道它在baidu.txt文件的哪个部分。在提取之前,我们要先统计一下,我们一起来分析一下。

  首先使用Notepad++工具打开baidu.txt文件,结果是密密麻麻的数字:

  

  别管你懂不懂,一起来“数羊”吧。

  该段数被计为每个空白空间一个段。我们要查找一行中所有状态码的个数,正好在第 9 段号。

  

  知道段数后,就知道状态码是什么,多少段,对当前网站的具体情况也有更深的了解。让我们通过这串命令来提取所有状态码页的信息。命令如下:

  cat baidu.txt|awk '{print $9}'|sort|uniq -c

  回车后,终端会显示网站的所有状态码和对应的数字,如下图:

  

  第四步:

  于是再次判断404的情况:只统计状态码的输入命令:

  cat baidu.txt|grep '404'>>404.txt

  在这里提醒一下,您可以直接将 404 状态码分开。为了更好地确认,请将其保存为 404.txt 文件。同样,该文件也有这个 404.txt 文件。

  

  当然,这一步还没有结束,因为整行404状态码的数据还是被提取出来的。我们的目的是提取网站404页面的链接,所以我们需要提取这个block的链接,在行中找到对应的链接。一些?在一行中找到第 7 个:

  

  第五步:

  然后输入命令提取链接:

  cat 404.txt|awk '{print $7}'>>baidu404.txt

  注意:因为要解压哪个文件,要解压哪个文件,这里是解压404.txt文件。

  

  回车后发现文件中多了一个baidu404.txt文件。为了知道是百度爬取的404页面,很容易识别,所以命名为baidu404.txt。

  打开的是这些链接是404状态码:

  

  我们一般把404错误页面提交给百度网站后台是把所有的404页面一起放到某个文件中,比如404.txt文件,然后再提交给百度。这时候如果你的网站很大,而且经常修改修改,404页面就无法避免,甚至几万、几十万条数据,使用loghao的网页版一开始不符合要求,一个是无法导出的函数,无法判断提取是否100%准确。而使用这个cygwin工具,虽然在使用过程中稍微复杂了一点,但是还是靠谱的。对于一些白人SEOer来说,他们可以使用它,他们有成就感吗?

  如果404页面很多,我们可以用Excel表格拼接,我会使用虚拟URL。举个例子,具体实现过程如下:

  首先将提取出来的404链接放到Excel的B列数据网格中,在A列数据网格中写入你的网站真实URL,进行拼接处理。拼接命令是先在C列输入“=”。",然后Ctrl+A,再输入“&”,再输入Ctrl+B回车,就变成了拼接的链接地址。

  

  最后,在C列拼接的数据网格中,鼠标悬停片刻,有一个“+”,双击,就可以全部拼接出来了。

  

  如果有几万条数据,这种方法效率更高吗?那么剩下的就交给复制粘贴了,怎么提交到百度后台,相信做seo的人都懂。

  最后要补充的一件事:

  做seo优化,活蹦乱跳的,如果你想查看一个链接被搜索引擎蜘蛛重复爬取的次数,因为你知道哪些页面是重复爬取的,你可以做一些对应的网站网站@网站给链接添加nofollow属性操作,避免多次爬取,更多的机会和次数让它爬取其他页面,输入如下命令:

  cat baidu.txt|awk '{print $7}'|sort|uniq -c

  

  注意:只有“/”代表首页,前面的数字代表被爬取的次数。

  如果你想在自己的某个栏目中查看哪些页面被爬取了,例如通过“hlw”栏目下的内容,百度搜索引擎蜘蛛爬取了哪些页面,可以输入命令:

  cat baidu.txt|awk '/hlw/'|sort|uniq -c

  然后按回车键,结果会显示有多少条记录。

  如果以后出现网站没有收录的问题,可以用这个查询方法来解决你的网站问题的根本原因,而不是一味的优化网站,使用这段cygwin以自定义规则分析网站日志和百度网站后台索引量,看看为什么哪些列的内容没有被索引,哪些索引严重退化?网站做了什么?

  

  只有分析我们每天所做的事情的统计数据,才能有针对性地解决问题,就像知道病因在哪里,才能对症下药,药才能治病。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线