seo网站日志分析工具(本篇Web服务器日志8种可行的方法分析SEO优化优化)
优采云 发布时间: 2022-03-12 20:07seo网站日志分析工具(本篇Web服务器日志8种可行的方法分析SEO优化优化)
在这篇文章 文章 中,我们将介绍什么是日志文件、它们为什么重要、要查找什么以及使用什么工具。最后,我将提供 8 种可行的方法来分析 SEO 优化。服务器日志是由服务器自动创建和维护的一个(或多个)日志文件,由它执行的活动列表组成。出于 SEO 的目的,我们专注于一个 Web 服务器日志,其中收录来自人类和机器人的 网站 页面请求的历史记录。有时也称为访问日志,原创数据看起来像这样:是的,数据一开始看起来有点压倒性和混乱,所以让我们分解它并仔细看看“命中”。每个服务器在记录命中方面本质上是不同的,但它们通常提供组织成字段的相似信息。
可以想象,日志文件每天收录数千次点击,每次用户或机器人访问您的 网站 时,都会为每个请求的页面记录许多点击 - 包括图像、CSS 和任何其他需要的文件渲染那个文件。所以你知道什么是日志文件,但为什么值得花时间分析它们呢?好吧,事实是,对于搜索引擎(如 Googlebot)对您的 网站 所做的事情,只有一份真实记录。那是通过查看 网站 的服务器日志文件。网站管理员工具、第三方爬虫和搜索运营商无法全面了解搜索引擎如何与 网站 交互。只有访问日志文件才能为我们提供此信息。日志文件分析为我们提供了大量有用的见解,包括使我们能够: 准确验证哪些可以或不能被抓取。查看搜索引擎在搜索过程中遇到的响应,例如 302、404、软 404。识别可能具有更广泛的基于站点的影响(例如层次结构或内部链接结构)的爬网缺陷。查看哪些页面被搜索引擎优先考虑并且可能被认为是最重要的页面。发现您的搜索预算被浪费的领域。我将引导您完成在日志文件分析期间可以执行的一些任务,并向您展示它们如何为您提供可操作的网站 见解。对于这种类型的分析,您需要来自您域的所有 Web 服务器的原创访问日志,而无需应用任何过滤或修改。理想情况下,您需要大量数据才能使分析变得有价值。识别可能具有更广泛的基于站点的影响(例如层次结构或内部链接结构)的爬网缺陷。查看哪些页面被搜索引擎优先考虑并且可能被认为是最重要的页面。发现您的搜索预算被浪费的领域。我将引导您完成在日志文件分析期间可以执行的一些任务,并向您展示它们如何为您提供可操作的网站 见解。对于这种类型的分析,您需要来自您域的所有 Web 服务器的原创访问日志,而无需应用任何过滤或修改。理想情况下,您需要大量数据才能使分析变得有价值。识别可能具有更广泛的基于站点的影响(例如层次结构或内部链接结构)的爬网缺陷。查看哪些页面被搜索引擎优先考虑并且可能被认为是最重要的页面。发现您的搜索预算被浪费的领域。我将引导您完成在日志文件分析期间可以执行的一些任务,并向您展示它们如何为您提供可操作的网站 见解。对于这种类型的分析,您需要来自您域的所有 Web 服务器的原创访问日志,而无需应用任何过滤或修改。理想情况下,您需要大量数据才能使分析变得有价值。将引导您完成在日志文件分析期间可以执行的一些任务,并向您展示它们如何为您提供可操作的网站 见解。对于这种类型的分析,您需要来自您域的所有 Web 服务器的原创访问日志,而无需应用任何过滤或修改。理想情况下,您需要大量数据才能使分析变得有价值。将引导您完成在日志文件分析期间可以执行的一些任务,并向您展示它们如何为您提供可操作的网站 见解。对于这种类型的分析,您需要来自您域的所有 Web 服务器的原创访问日志,而无需应用任何过滤或修改。理想情况下,您需要大量数据才能使分析变得有价值。
它的价值取决于网站的大小和权限以及它产生的流量。对于某些站点,一周可能就足够了,对于某些站点,您可能需要一个月或更多的数据。您的 Web 开发人员应该能够为您发送这些文件。在将它们发送给您之前,值得询问日志是否收录来自多个域和协议的请求,以及这些请求是否收录在此日志中。因为否则,它将阻止您正确识别请求。您将无法区分对和 :/// 的请求之间的区别。在这种情况下,您应该要求开发人员在以后更新日志配置以收录此信息。如果您是 Excel 专家,本指南对帮助您使用 Excel 格式化和分析日志文件非常有用。我们使用 Screaming Frog 日志文件分析器,其用户友好的界面可以快速轻松地发现任何问题(尽管可以说您没有获得与 Excel 相同的深度或自由度)。我将向您介绍的所有示例都是使用 Screaming Frog 日志文件分析器完成的。其他一些工具是 Splunk 和 GamutLogViewer。首先,什么是抓取预算?结合抓取率和抓取需求,我们将抓取预算定义为搜索引擎蜘蛛或机器人能够并且想要抓取的 URL 数量。本质上,它是每次访问您的 网站 时搜索引擎将抓取的页面数,与域的权重相关,并与通过 网站 链接的资源成正比。将向您介绍使用 Screaming Frog 日志文件分析器完成的操作。其他一些工具是 Splunk 和 GamutLogViewer。首先,什么是抓取预算?结合抓取率和抓取需求,我们将抓取预算定义为搜索引擎蜘蛛或机器人能够并且想要抓取的 URL 数量。本质上,它是每次访问您的 网站 时搜索引擎将抓取的页面数,与域的权重相关,并与通过 网站 链接的资源成正比。将向您介绍使用 Screaming Frog 日志文件分析器完成的操作。其他一些工具是 Splunk 和 GamutLogViewer。首先,什么是抓取预算?结合抓取率和抓取需求,我们将抓取预算定义为搜索引擎蜘蛛或机器人能够并且想要抓取的 URL 数量。本质上,它是每次访问您的 网站 时搜索引擎将抓取的页面数,与域的权重相关,并与通过 网站 链接的资源成正比。
对于日志文件分析至关重要,有时爬网预算可能会浪费在不相关的页面上。如果您有要索引的新内容,但没有预算,搜索引擎不会索引新内容。这就是为什么通过日志文件分析监控抓取预算支出很重要的原因。影响抓取预算的因素 有许多低附加值的 URL 会对 网站 的抓取和索引产生负面影响。低附加值 URL 可分为以下几类: 分面导航、动态 URL 生成和会话标识符(电子商务中常用 网站) 现场重复内容 被黑页面 软错误页面 低质量和垃圾邮件浪费页面之类的服务器资源可能会浪费在爬取实际有价值的页面上,这可能会导致在您的网站上发现优质内容时出现重大延迟。例如,查看这些日志文件,我们看到一个错误的主题被非常频繁地访问,问题很明显!在查看每个页面获得的事件数量时,问问自己搜索引擎是否应该抓取这些 URL——您通常会发现答案是否定的。因此,优化您的抓取预算将有助于搜索引擎抓取和索引您 网站 上最重要的页面。您可以通过多种方式执行此操作,例如通过 robots.txt 文件阻止收录特定模式的 URL,从而避免抓取 URL。我们已经介绍了为什么搜索引擎不要将抓取预算浪费在低价值页面上的重要性。*敏*感*词*的另一面是检查您对高价值页面的重视程度。查看这些日志文件,我们看到一个错误的主题被非常频繁地访问,问题很明显!在查看每个页面获得的事件数量时,问问自己搜索引擎是否应该抓取这些 URL——您通常会发现答案是否定的。因此,优化您的抓取预算将有助于搜索引擎抓取和索引您 网站 上最重要的页面。您可以通过多种方式执行此操作,例如通过 robots.txt 文件阻止收录特定模式的 URL,从而避免抓取 URL。我们已经介绍了为什么搜索引擎不要将抓取预算浪费在低价值页面上的重要性。*敏*感*词*的另一面是检查您对高价值页面的重视程度。查看这些日志文件,我们看到一个错误的主题被非常频繁地访问,问题很明显!在查看每个页面获得的事件数量时,问问自己搜索引擎是否应该抓取这些 URL——您通常会发现答案是否定的。因此,优化您的抓取预算将有助于搜索引擎抓取和索引您 网站 上最重要的页面。您可以通过多种方式执行此操作,例如通过 robots.txt 文件阻止收录特定模式的 URL,从而避免抓取 URL。我们已经介绍了为什么搜索引擎不要将抓取预算浪费在低价值页面上的重要性。*敏*感*词*的另一面是检查您对高价值页面的重视程度。在查看每个页面获得的事件数量时,问问自己搜索引擎是否应该抓取这些 URL——您通常会发现答案是否定的。因此,优化您的抓取预算将有助于搜索引擎抓取和索引您 网站 上最重要的页面。您可以通过多种方式执行此操作,例如通过 robots.txt 文件阻止收录特定模式的 URL,从而避免抓取 URL。我们已经介绍了为什么搜索引擎不要将抓取预算浪费在低价值页面上的重要性。*敏*感*词*的另一面是检查您对高价值页面的重视程度。在查看每个页面获得的事件数量时,问问自己搜索引擎是否应该抓取这些 URL——您通常会发现答案是否定的。因此,优化您的抓取预算将有助于搜索引擎抓取和索引您 网站 上最重要的页面。您可以通过多种方式执行此操作,例如通过 robots.txt 文件阻止收录特定模式的 URL,从而避免抓取 URL。我们已经介绍了为什么搜索引擎不要将抓取预算浪费在低价值页面上的重要性。*敏*感*词*的另一面是检查您对高价值页面的重视程度。优化您的抓取预算将有助于搜索引擎抓取和索引您 网站 上最重要的页面。您可以通过多种方式执行此操作,例如通过 robots.txt 文件阻止收录特定模式的 URL,从而避免抓取 URL。我们已经介绍了为什么搜索引擎不要将抓取预算浪费在低价值页面上的重要性。*敏*感*词*的另一面是检查您对高价值页面的重视程度。优化您的抓取预算将有助于搜索引擎抓取和索引您 网站 上最重要的页面。您可以通过多种方式执行此操作,例如通过 robots.txt 文件阻止收录特定模式的 URL,从而避免抓取 URL。我们已经介绍了为什么搜索引擎不要将抓取预算浪费在低价值页面上的重要性。*敏*感*词*的另一面是检查您对高价值页面的重视程度。
如果您按事件数量对日志文件进行排序并按 HTML 过滤,您可以看到访问量最大的页面。说最重要的 URL 应该被抓取最多可能过于简单了 - 但如果您是潜在客户 网站,您希望您的主页、关键服务页面和 文章 内容出现在里面。作为电子商务网站,您希望您的主页、类别页面和关键产品页面出现在那里。如果您看到不再销售的旧产品页面,并且这些结果中最重要的类别页面为零,那么就有问题了。坚持使用日志分析工具,很容易做到。我们知道 Google 是外贸的主要搜索引擎,因此确保您的 网站 经常被 Googlebot 智能手机和 Googlebot 访问是您的首要任务。我们可以通过搜索引擎机器人过滤日志文件数据。过滤后,您可以查看每个所需搜索引擎机器人记录的事件数。希望您会看到 Googlebot Smartphone 或 Googlebot 最常访问您的 网站。使用 Screaming Frog 日志文件分析器,您可以快速发现错误状态代码,并且由于它们按抓取频率排序,您还可以查看哪些 URL 最有可能被修复。要查看此数据,您可以在响应代码选项卡下过滤此信息,以查找具有 3xx、4xx 和 5xx HTTP 状态的页面 他们经常访问吗?3xx、4xx 和 5xx 页面是否比您的重要页面获得更多流量?响应代码是否有任何模式?在一个项目中,点击率最高的 15 个页面有重定向、不正确的 302(临时)重定向、页面上没有内容的页面,以及一些 404 和软 404。
通过日志文件分析,一旦发现问题,就可以通过更新不正确的重定向和软 404 来解决问题。虽然分析搜索引擎将遇到的最后一个响应代码很重要,但突出显示不一致的响应代码也可以为您提供更深入的见解。如果您只查看最后一个响应代码并且没有看到任何异常错误或 4xxs 和 5xxs 中的任何尖峰,您可以在那里进行技术检查。但是,您可以使用日志文件分析器中的过滤器来详细查看“不一致”响应。您的 URL 可能遇到不一致的响应代码的原因有很多。例如:5xx 和 2xx 混合 - 当它们处于高负载状态时,这可能表明服务器存在问题。4xx 和 2xx 的混合——这可能表示已出现或已修复的断开链接。从日志文件分析中获得此信息后,您可以创建一个行动计划来修复这些错误。我们知道到第一个字节的时间 (TTFB)、到最后一个字节的时间 (TTLB) 和到整页加载的时间都会影响 网站 的抓取方式。尤其是 TTFB,这是让您的 网站 快速高效地爬网的关键。页面速度也是一个排名因素,我们可以看到快速网站 对您的表现至关重要。使用日志文件,我们可以快速查看 网站 上最大的页面和最慢的页面。要查看最大的页面,请按平均字节列排序。在这里,我们可以看到 PDF 构成了 网站 上的最大页面。以及加载整页的时间都会影响您的 网站 抓取方式。尤其是 TTFB,这是让您的 网站 快速高效地爬网的关键。页面速度也是一个排名因素,我们可以看到快速网站 对您的表现至关重要。使用日志文件,我们可以快速查看 网站 上最大的页面和最慢的页面。要查看最大的页面,请按平均字节列排序。在这里,我们可以看到 PDF 构成了 网站 上的最大页面。以及加载整页的时间都会影响您的 网站 抓取方式。尤其是 TTFB,这是让您的 网站 快速高效地爬网的关键。页面速度也是一个排名因素,我们可以看到快速网站 对您的表现至关重要。使用日志文件,我们可以快速查看 网站 上最大的页面和最慢的页面。要查看最大的页面,请按平均字节列排序。在这里,我们可以看到 PDF 构成了 网站 上的最大页面。要查看最大的页面,请按平均字节列排序。在这里,我们可以看到 PDF 构成了 网站 上的最大页面。要查看最大的页面,请按平均字节列排序。在这里,我们可以看到 PDF 构成了 网站 上的最大页面。
优化它们并减小它们的大小是一个很好的起点。如果您看到此处显示的特定页面,您可能需要单独查看它们。它们是否覆盖了高分辨率图像?他们有视频自动播放吗?他们有不必要的自定义字体吗?是否启用了文本压缩?虽然页面大小可以很好地指示页面有多慢,但这并不是全部。您可以拥有一个大页面,并且它仍然可以快速加载。对“平均响应时间”列进行排序,您可以看到响应时间最慢的 URL。与您在此处看到的所有数据一样,您可以按 HTML、Javascript、图像、CSS 等进行过滤,这非常适合审计。也许您的目标是减少 网站 对 Javascript 的依赖,并希望找出最大的罪魁祸首。或者你知道 CSS 可以被简化,你需要数据来支持它。您的 网站 可能会以蜗牛的速度加载,并且按图像过滤显示您应该优先考虑提供下一代格式。此日志文件分析器的另一个重要功能是能够导入 网站 的爬网。这真的很容易实现,并让您更灵活地从日志文件中进行分析。只需将爬取拖放到“导入的 URL 数据”中,如下所示。完成后,您可以进行进一步的分析。确保在下拉菜单中选择“匹配到 URL 数据”,然后将相关列拖到视图中。在这里,我们可以对抓取深度和链接对您的网站抓取频率的影响进行批量分析。此日志文件分析器的另一个重要功能是能够导入 网站 的爬网。这真的很容易实现,并让您更灵活地从日志文件中进行分析。只需将爬取拖放到“导入的 URL 数据”中,如下所示。完成后,您可以进行进一步的分析。确保在下拉菜单中选择“匹配到 URL 数据”,然后将相关列拖到视图中。在这里,我们可以对抓取深度和链接对您的网站抓取频率的影响进行批量分析。此日志文件分析器的另一个重要功能是能够导入 网站 的爬网。这真的很容易实现,并让您更灵活地从日志文件中进行分析。只需将爬取拖放到“导入的 URL 数据”中,如下所示。完成后,您可以进行进一步的分析。确保在下拉菜单中选择“匹配到 URL 数据”,然后将相关列拖到视图中。在这里,我们可以对抓取深度和链接对您的网站抓取频率的影响进行批量分析。
例如,如果您的“重要”页面很少被抓取,并且您发现它们的链接很少且抓取深度大于 3,这可能就是您的页面没有被抓取那么多的原因。相反,如果您的页面被大量爬网并且您不确定原因,请查看该页面在 网站 中的位置。链接在哪里?离根有多远?分析这一点可以告诉你,搜索引擎喜欢你的 网站 结构。最终,这种技术可以帮助您识别层次结构和站点结构中的任何问题。最后,通过导入爬网数据,很容易发现孤立页面。孤立页面可以定义为搜索引擎知道并正在抓取但未在您的 网站 中链接的页面。选择下拉菜单“不在 URL 数据中” 将显示您的日志中存在的 URL,而不是您的抓取数据中存在的 URL。因此,此处显示的 URL 将是搜索引擎机器人仍然认为有价值但不再出现在 网站 上的页面。出现孤立 URL 的原因有很多,包括: 网站结构更改 内容更新旧的重定向 URL 内部链接不正确 外部链接不正确 最终,您需要查看您找到的孤立 URL 并使用判断来处理它们。这就是我们对日志文件分析和 8 个可操作任务的简短介绍,您可以使用 Screaming Frog 日志文件分析器立即开始。您可以在 Excel 和上面提到的其他工具(以及其他工具)中做更多的事情。您如何进行日志文件分析?您认为哪种工具最有效?我们的 SEO 团队很想知道,