通用方法:日志文件分析：用于SEO的8种可行方法

优采云发布时间: 2022-11-24 11:34

　　在本文中，我们将解释什么是日志文件、为什么它们很重要、要查找什么以及要使用哪些工具。最后，我将提供 8 个可操作的方法来分析 SEO 优化。

　　什么是服务器日志文件？

　　服务器日志是由服务器自动创建和维护的日志文件（或多个文件），由服务器执行的活动列表组成。

　　出于 SEO 目的，我们专注于 Web 服务器日志，其中收录

来自人类和机器人的网站页面请求的历史记录。有时称为访问日志，原创

数据如下所示：

　　是的，数据一开始看起来有点庞大和混乱，所以让我们分解一下，更仔细地看看“命中率”。

　　打例

　　每个服务器在记录命中率方面本质上是不同的，但它们通常会提供组织成字段的类似信息。

　　以下是 Apache 网络服务器的示例（已简化 - 一些字段已被删除）：

　　50.56.92.47 – – [25/5/2020:12:21:17 +0100] “GET” - “/wp-content/themes/esp/help.php” - “404” “-” “Mozilla/5.0(兼容；Googlebot/2.1；+ googledomain/bot.html)” – 域 –

　　如您所见，对于每次点击，我们都会获得关键信息，例如日期和时间、所请求 URI 的响应代码（在本例中为 404）以及请求来自的用户代理（在本例中为 Googlebot）。可以想象，日志文件每天收录

数千次点击，每当用户或机器人访问您的站点时，每个请求的页面都会记录许多点击——包括图像、CSS 和文件呈现所需的任何其他文档。

　　为什么如此重要？

　　您知道什么是日志文件，但为什么值得花时间分析它们呢？

　　好吧，事实是，关于搜索引擎（例如 Googlebot）如何处理您的网站，只有一份真实记录。那是通过查看网站的服务器日志文件。

　　网站站长工具、第三方爬虫和搜索运营商对搜索引擎如何与网站交互没有全面的了解。只有访问日志文件才能为我们提供此信息。

　　我们如何使用日志文件分析来进行 SEO？

　　日志文件分析为我们提供了许多有用的见解，包括允许我们：

　　准确验证可以抓取和不能抓取的内容。查看搜索引擎在抓取过程中遇到的响应，例如 302、404、软 404。识别可能具有更广泛的基于站点的影响（例如层次结构或内部链接结构）的抓取缺陷。查看哪些页面被搜索引擎优先考虑并且可能被认为是最重要的。发现搜索预算被浪费的区域。我将带您完成一些您可以在日志文件分析期间执行的任务，并向您展示它们如何为您提供可操作的网站见解。

　　如何获取日志文件？

　　对于这种类型的分析，您需要来自域中所有 Web 服务器的原创

访问日志，没有应用任何过滤或修改。理想情况下，您需要大量数据才能使分析有价值。多少天/周是值得的取决于站点的大小和权限以及产生的流量。对于某些站点，一周可能就足够了，而对于某些站点，您可能需要一个月或更长时间的数据。

　　您的网络开发人员应该能够向您发送这些文件。值得一问的是，在将这些请求发送给您之前，日志是否收录

来自多个域和协议的请求，以及这些请求是否收录

在此日志中。因为否则，您将无法正确识别请求。您将无法分辨请求域名/ 和域名/ 之间的区别。在这种情况下，您应该要求开发人员更新日志记录配置以在将来收录

此信息。

　　我需要使用什么工具？

　　如果您是 Excel 专家，本指南可帮助您使用 Excel 格式化和分析日志文件。我们使用 Screaming Frog 日志文件分析器，其用户友好的界面可以快速轻松地发现任何问题（尽管可以说，您无法获得与 Excel 相同的深度或自由度）。我将向您介绍的所有示例都是使用 Screaming Frog 日志文件分析器完成的。其他一些工具是 Splunk 和 GamutLogViewer。

　　分析 SEO 日志文件的 9 种方法

　　1.找出你的搜索预算被浪费在哪里

　　首先，什么是抓取预算？结合抓取速度和抓取需求，我们将抓取预算定义为搜索引擎蜘蛛或机器人可以抓取并想要抓取的 URL 数量。

" />

　　从本质上讲，它是搜索引擎每次访问您的站点时将抓取的页面数量，并且与域权重相关并与通过您站点的链接资源成正比。

　　对于日志文件分析至关重要，抓取预算有时会浪费在不相关的页面上。如果您有新内容要索引但没有预算，那么搜索引擎将不会索引新内容。这就是为什么通过日志文件分析来监控爬网预算支出很重要的原因。

　　影响抓取预算的因素

　　有许多低附加值的 URL 会对站点的抓取和索引编制产生负面影响。低附加值网址可分为以下几类：

　　分面导航、动态 URL 生成和会话标识符（通常由电子商务网站使用）网站上的重复内容被黑的页面软错误页面像这样的页面上的低质量和垃圾邮件浪费服务器资源在实际有价值的页面上浪费爬行活动，这可能导致在网站上发现好内容的显着延迟。

　　例如，查看这些日志文件，我们发现访问不正确的主题非常频繁，问题很明显！

　　在查看每个页面获得的事件数时，问问自己搜索引擎是否应该抓取这些 URL——您通常会发现答案是否定的。因此，优化您的抓取预算将有助于搜索引擎抓取您网站上最重要的页面并将其编入索引。您可以通过多种方式做到这一点，例如通过您的 robots.txt 文件阻止收录

特定模式的 URL，从而避免 URL 被抓取。

　　2. 您的重要页面是否已完全编入索引？

　　我们已经介绍了为什么搜索引擎不要在低价值页面上浪费抓取预算很重要。*敏*感*词*的另一面是检查您对高价值页面的重视程度。如果您按事件数对日志文件排序并按 HTML 过滤，您可以看到访问最多的页面。

　　说最重要的 URL 应该被最多抓取可能过于简单化了 - 但如果您是一个潜在客户网站，您希望您的主页、关键服务页面和文章内容出现在那里。

　　作为电子商务网站，您希望主页、类别页面和主要产品页面显示在那里。如果您在这些结果中看到不再销售的旧产品页面和零顶级类别页面，则说明有问题。

　　3. 你所有的目标搜索引擎机器人都在访问你的页面吗？

　　坚持日志分析工具，很容易执行。我们知道 Google 是外贸中主要的搜索引擎，因此确保 Googlebot Smartphone 和 Googlebot 定期访问您的网站是您的首要任务。

　　我们可以通过搜索引擎机器人过滤日志文件数据。

　　过滤后，您可以看到每个所需的搜索引擎机器人正在记录多少事件。希望您会看到 Googlebot Smartphone 或 Googlebot 访问您网站的次数最多。

　　4.发现错误的状态码

　　使用 Screaming Frog 日志文件分析器，您可以快速发现错误状态代码，并且由于它们是按抓取频率排序的，您还可以查看哪些是最有可能修复的 URL。

　　要查看此数据，您可以在“响应代码”选项卡下过滤此信息

　　查找具有 3xx、4xx 和 5xx HTTP 状态的页面

　　他们经常访问 3xx、4xx 和 5xx 页面是否比您的重要页面获得更多访问？响应代码有任何模式吗？在一个项目中，命中率最高的前 15 个页面有重定向、不正确的 302（临时）重定向、没有内容的页面以及一些 404 和软 404。

　　通过日志文件分析确定问题后，您可以开始通过更新不正确的重定向和软 404 来修复它。

　　5.高亮不一致的响应码

　　虽然分析搜索引擎将遇到的最后一个响应代码很重要，但突出显示不一致的响应代码也可以让您获得更深入的了解。

　　如果您只查看末尾的响应代码并且没有看到异常错误或 4xxs 和 5xxs 中的任何尖峰，您可以在那里进行技术检查。但是，您可以使用日志文件分析器中的过滤器来向下钻取到仅“不一致”的响应。

" />

　　您的 URL 可能遇到不一致的响应代码的原因有很多。例如：

　　5xx 和 2xx 的混合 - 当它们处于严重负载下时，这可能表明服务器存在问题。混合 4xx 和 2xx – 这可能表示已发生或已修复的断开链接一旦您在日志文件分析中获得此信息，您就可以创建一个修复这些错误的行动计划。

　　6.审计大页面或慢页面

　　我们知道，第一个字节的时间 (TTFB)、最后一个字节的时间 (TTLB) 和整页加载的时间都会影响您网站的抓取方式。尤其是TTFB，这是让你的网站快速高效爬行的关键。页面速度也是一个排名因素，我们可以看到快速的网站对您的表现至关重要。

　　使用日志文件，我们可以快速查看您网站上最大和最慢的页面。

　　要查看最大的页面，请对“平均字节数”列进行排序。

　　在这里我们可以看到 PDF 构成了网站上最大的页面。优化它们并减小它们的大小是一个很好的起点。如果您看到此处显示的特定页面，您可能需要单独查看它们。

　　它们是否覆盖有高分辨率图像？他们有自动播放的视频吗？他们有不必要的自定义字体吗？是否启用了文本压缩？虽然页面大小可以很好地指示页面是否缓慢，但这并不是全部。你可以有一个巨大的页面，它仍然会快速加载。对“平均响应时间”列进行排序，您可以看到响应时间最慢的 URL。

　　对于您在此处看到的所有数据，您可以按 HTML、JavaScript、图像、CSS 等进行过滤，这对于审核非常有用。

　　也许您的目标是减少您的网站对 JavaScript 的依赖，并且您想找出最大的罪魁祸首。或者你知道 CSS 可以简化，你需要数据来支持它。您的网站可能正在以蜗牛般的速度加载，按图像过滤会告诉您服务下一代格式应该是优先事项。

　　7.检查内部链接和抓取深度的重要性

　　此日志文件分析器的另一个重要功能是能够导入网站抓取。这真的很容易实现，并让您更灵活地从日志文件进行分析。只需将爬网拖放到“导入的 URL 数据”中，如下所示。

　　完成后，您可以执行进一步的分析。

　　确保在下拉菜单中选择了“与 URL 数据匹配”，然后将相关列拖到视图中。在这里我们可以批量分析抓取深度和链接对您网站抓取频率的影响。

　　例如，如果您的“重要”页面很少被抓取，并且您发现它们的链接很少，而您的抓取深度大于 3，这可能就是您的页面没有被抓取太多的原因。相反，如果您的某个网页经常被抓取而您不确定原因，请查看该网页在您网站上的位置。链接在哪里？离根有多远？对此进行分析可以告诉您搜索引擎喜欢您的网站结构。最终，这种技术可以帮助您识别层次结构和网站结构的任何问题。

　　8. 发现孤立页面

　　最后，通过导入爬网数据很容易发现孤立页面。孤立页面可以定义为搜索引擎知道并正在抓取但未链接到您网站内的页面。

　　选择下拉菜单“不在 URL 数据中”将显示存在于日志中的 URL，而不是在您的抓取数据中。因此，此处显示的 URL 将是搜索引擎机器人仍然认为有价值的页面，但不再出现在网站上。出现孤立 URL 的原因有很多，包括：

　　站点结构更改内容更新旧的重定向 URL 不正确的内部链接不正确的外部链接最终，您需要查看您找到的孤立 URL 并使用您的判断来处理它们。

　　最后的想法

　　我们对日志文件分析和 8 个可操作任务的简短介绍到此结束，您可以立即开始使用 Screaming Frog 日志文件分析器。您可以在 Excel 和上面提到的其他工具（以及其他工具）中做更多的事情。

　　你如何进行日志文件分析？您认为哪种工具最有效？我们的 SEO 团队很想知道，请在下方发表评论！

　　技巧:SEO中关键词挖掘后的挑选和分组原则

　　挖掘完关键词之后，需要对关键词进行选择和分组，这样我们就可以根据关键词来决定用什么样的网页来承载这些关键词，是否需要编辑器提供内容，是否需要设计和添加新类型的网页等，发现的关键词的选择和分组决定了关键词的最终部署方式和策略。

　　1. 关键词的选择

　　并非所有出土的关键词都必须在现场布置。虽然在挖掘关键词之前已经限制了一定的范围，但是还是要选择挖掘出来的关键词来选择标准的、适合的关键词进行网站优化，即选择For 关键词与你网站的主题内容相关，只保留能产生“有效流量”的关键词。

" />

　　选择关键词时，首先选择与内容相关的关键词，这是最基本的筛选条件。最重要的是根据自己的综合实力和资源来选择，在自己能力范围内选择关键词，最好选择搜索量大但市场竞争小的关键词。虽然现在这样的词越来越少，但是关键词的体量是巨大的。总会有关键词是由更少的人开发或制作的。如果网站综合实力非常好，现有内容或者获取和生产内容的能力也非常好，就不需要考虑单个关键词的市场竞争，而考虑问题在关键词的搜索级别，相对而言，可以快速为网站产生流量收益。当然，关键词的选择方式需要根据网站的具体情况来操作。在关键词的选型过程中，可以使用关键词索引值批量查询等工具辅助选型。在平时的seo工作中，我们会综合评估所选关键词的搜索量、竞争程度、流量收益，协助决定这些关键词放在哪些页面，以及推广力度。网站内外链接等等。索引值批量查询可用于辅助选择。在平时的seo工作中，我们会综合评估所选关键词的搜索量、竞争程度、流量收益，协助决定这些关键词放在哪些页面，以及推广力度。网站内外链接等等。索引值批量查询可用于辅助选择。在平时的seo工作中，我们会综合评估所选关键词的搜索量、竞争程度、流量收益，协助决定这些关键词放在哪些页面，以及推广力度。网站内外链接等等。

　　2.关键词的分组

　　这是指按站点页面类型对选定的关键词进行分组。包括首页和核心目录页适合用什么词；什么词适合扩展子目录页面；什么词适合特殊页面；什么词适合在内容中排版；什么词适合站内资源聚合页面；哪些词不适合现有的网页类型，需要设计新的页面类型等。

" />

　　在对关键词进行分组时，要充分考虑关键词的长度、搜索量、竞争强度、词性、商业价值和细分类型等因素。通过结合这些元素，关键词分为核心关键词、目标关键词、流量词、长尾词等，辅助部署这些关键词在网站。同时，这些元素都决定了某个关键词是否适合某类页面。资源能否得到有效利用，将直接影响到网站后续关键词的布局。因此，选用的关键词应根据网站的具体情况、内容数据量和网站的用途进行分组。

　　3.创建关键词之间的关联关系

　　对于某些网站，可能不需要为挖掘的关键词创建相关关系，只需将关键词添加到网站即可。但是关键词之间的关系通常可以帮助指导网站内部链接的布局，所以在结构比较大、内容较多的网站上还是有必要为关键词建立关系。

　　如果要处理的关键词数量有限，可以采用手工处理。例如，上面的挖掘、选择和分组工作实际上创建了关键词之间的相关性。如果关键词的数量过多，比如需要处理10万个以上的关键词，可以使用各种工具对关键词的指标、竞争度、流量效率等数据进行处理大批量获取，但是关键词的分类比较难处理，人工独立分类那么多的关键词是不可能的。如果关键词没有分类，那么仅仅借助关键词之间的分词关系，不足以为这么多的关键词建立有效的关联关系。“设置起来可能并不容易，

0

2022-11-24

seo网站日志分析工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

通用方法:日志文件分析：用于SEO的8种可行方法

0 个评论

发起人

AI时代内容工厂

通用方法:日志文件分析：用于SEO的8种可行方法

0 个评论

发起人

相关问题