解决方案:谷歌*敏*感*词*:使用日志文件分析揭示有价值谷歌SEO见解的5种方法
优采云 发布时间: 2022-11-24 22:32解决方案:谷歌*敏*感*词*:使用日志文件分析揭示有价值谷歌SEO见解的5种方法
你也许也喜欢:
日志文件分析应该是每个 Google SEO 专业人员工具带的一部分,但大多数 Google SEO 从未这样做过。这意味着大多数 SEO 都错过了常规爬虫无法生成的独特而有价值的见解。
让我们揭开日志文件分析的神秘面纱,让它不那么令人生畏。如果您对日志文件的奇妙世界以及它们可以为您的站点审核带来什么感兴趣,那么本指南绝对适合您。
什么是日志文件?
日志文件是收录
有关谁和什么向您的 Web 服务器发出请求的详细日志的文件。每次机器人向您的站点发出请求时,时间、日期、IP 地址、用户代理等数据都会存储在此日志中。这些有价值的数据允许任何 Google SEO 找出 Googlebot 和其他抓取工具在您的网站上做什么。与 Screaming Frog google SEO Spider 等常规抓取不同,这是真实世界的数据,而不是对您网站的抓取方式的估计。它准确地概述了您的网站是如何被抓取的。
拥有这些准确的数据可以帮助您确定浪费抓取预算的区域、轻松找到访问错误、了解您的 SEO 工作如何影响抓取等等。最好的部分是,在大多数情况下,您可以使用简单的电子表格软件来完成此操作。
在本指南中,我们将重点介绍 Excel 来执行日志文件分析,但我也会讨论其他工具,例如 Screaming Frog 鲜为人知的日志文件分析器,它可以帮助您管理更大的数据集,从而使工作更轻松、更快速.
注意:拥有 Excel 以外的任何软件都不是遵循本指南或访问日志文件的必要条件。
如何打开日志文件 将 .log 重命名为 .csv
当您获得扩展名为 .log 的日志文件时,只需将文件扩展名重命名为 .csv 并在电子表格软件中打开该文件即可。如果您希望编辑这些文件,请记住将您的操作系统设置为显示文件扩展名。
如何打开拆分日志文件
日志文件可以在一个大日志或多个文件中,具体取决于站点的服务器配置。一些服务器将使用服务器负载平衡来在服务器池或服务器群之间分配流量,从而导致日志文件被拆分。好消息是合并真的很容易,你可以使用这三种方法之一来合并它们,然后正常打开它们:
然后运行以下命令:
复制 *.log mylogfiles.csv
您现在可以打开收录
所有日志数据的 mylogfile.csv。或者,如果您是 Mac 用户,请先 cd 到您的日志文件目录:
cd 文档/MyLogFiles/
然后,使用 cat 或 concatenate 命令连接您的文件:
cat *.log > mylogfiles.csv
2)使用免费工具Log File Merge,合并所有日志文件,然后编辑文件扩展名为.csv,即可正常打开。
3) 使用 Screaming Frog 日志文件分析器打开日志文件就像拖放日志文件一样简单:
拆分字符串
(注意:如果您使用的是 Screaming Frog 的日志文件分析器,则不需要此步骤)
打开日志文件后,您需要将每个单元格中的繁琐文本拆分成列,以便以后更轻松地进行排序。
Excel 的文本到列功能在这里派上用场,它就像选择所有填充的单元格 (Ctrl/Cmd + A) 并转到 Excel > 数据 > 文本到列并选择“分隔符”选项一样简单,分隔符是一个空格字符。
将它分开后,您可能还想按时间和日期排序 - 您可以在时间和日期戳列上执行此操作,通常使用“:”冒号分隔符来分隔数据。
您的文件应如下所示:
如前所述,如果您的日志文件看起来不完全相同,请不要担心——不同的日志文件具有不同的格式。只要您拥有基本数据(时间和日期、URL、用户代理等),就可以开始了!
了解日志文件
现在您的日志文件已准备好进行分析,我们可以深入了解并开始了解我们的数据。具有许多不同数据点的日志文件可以采用多种格式,但它们通常包括以下内容:
如果您对细节感兴趣,可以在下面找到有关常见格式的更多详细信息:
如何快速揭示抓取预算浪费
快速回顾一下,抓取预算是搜索引擎每次访问您的网站时抓取的页面数。许多因素会影响抓取预算,包括链接资产或域权限、站点速度等。通过日志文件分析,我们将能够看到您的网站有什么样的抓取预算,以及哪些地方存在浪费抓取预算的问题。
" />
理想情况下,我们希望为我们的爬虫提供最高效的爬虫体验。抓取不应浪费在低价值的页面和 URL 上,优先页面(如产品页面)不应因为网站有太多无用页面而导致索引和抓取速度变慢。游戏的名称是抓取预算保护,抓取预算的良好转变会带来更好的有机搜索性能。
查看用户代理抓取的网址
查看您的网站 URL 被抓取的频率可以快速揭示搜索引擎将时间花在了哪些抓取上。
如果您有兴趣查看各个用户代理的行为方式,就像在 Excel 中过滤掉相关列一样简单。在这种情况下,使用 WC3 格式的日志文件,我通过 Googlebot 过滤 cs(User-Agent) 列:
然后过滤 URI 列以显示 Googlebot 抓取此示例站点主页的次数:
这是通过 URI 词干查看单个用户代理是否存在任何问题区域的快速方法。您可以更进一步,查看 URI 词干列的过滤选项,在本例中为 cs-uri-stem:
从这个基本菜单中,我们可以看到正在抓取哪些 URL,包括资源文件,以快速识别任何有问题的 URL(例如,不应抓取的参数化 URL)。
您还可以使用数据透视表进行更广泛的分析。要获取特定用户代理抓取特定 URL 的次数,请选择整个表 (Ctrl/cmd + A),转到插入 > 数据透视表,然后使用以下选项:
我们所做的只是按用户代理进行过滤,将 URL 词干作为行,并计算每个用户代理出现的次数。
在我的示例日志文件中,我得到以下信息:
然后,为了按特定用户代理进行过滤,我单击了收录
“(全部)”的单元格上的下拉图标并选择了 Googlebot:
了解哪些不同的机器人正在爬行、移动机器人与桌面机器人的爬行方式有何不同以及它们爬行最多的地方可以帮助您立即了解存在爬行预算浪费的地方以及您网站的哪些区域需要改进。
查找低价值的附加 URL
抓取预算不应浪费在低附加值的 URL 上,这通常是由会话 ID、无限抓取空间和分面导航造成的。
为此,请返回您的日志文件并按收录
“?”的 URL 进行过滤。或 URL 列中的问号符号(收录
URL 词干)。要在 Excel 中执行此操作,请记住使用“~?” 或波浪号问号,像这样:
一个 ”?” 或问号,如自动过滤器窗口中所述,代表任何单个字符,因此添加波浪号就像转义字符一样,并确保问号符号本身被过滤掉。
那不是很容易吗?
查找重复的网址
重复的 URL 可能会浪费抓取预算,并且是 Google SEO 的一个大问题,但找到它们可能会很痛苦。URL 有时可能会有细微的变化(例如,URL 的尾部斜杠版本与非尾部斜杠版本)。
最后,查找重复 URL 的最佳方法也是最不有趣的——您必须按站点 URL 词干的字母顺序排序并手动查看。
您可以找到同一 URL 的尾随和非尾随斜杠版本的一种方法是在另一列中使用 SUBSTITUTE 函数并使用它来删除所有正斜杠:
=SUBSTITUTE(C2, "/", "")
在我的例子中,目标单元格是 C2,因为词干数据位于第三列。
然后,使用条件格式来识别重复值并突出显示它们。
然而不幸的是,目视检查是迄今为止最好的方法。
查看子目录的抓取频率
找出哪些子目录被抓取最多是另一种揭示抓取预算浪费的快速方法。请记住,仅仅因为客户的博客从未获得单个反向链接并且每年仅从*敏*感*词*的祖母那里获得三个视图并不意味着您应该将其视为抓取预算浪费 - 内部链接结构应该在整个网站上保持一致来自客户从角度来看,该内容可能有充分的理由。
要按子目录级别找出抓取频率,您需要主要观察它,但以下公式可以提供帮助:
" />
=IF(RIGHT(C2,1)="/",SUM(LEN(C2)-LEN(SUBSTITUTE(C2,"/", "")))/LEN("/")+SUM(LEN(C2) -LEN(SUBSTITUTE(C2,"=","")))/LEN("=")-2, SUM(LEN(C2)-LEN(SUBSTITUTE(C2,"/","")))/LEN ("/")+SUM(LEN(C2)-LEN(SUBSTITUTE(C2,"=","")))/LEN("=")-1)
上面的公式看起来有点傻,但它所做的只是检查尾部斜杠,根据答案计算尾部斜杠的数量,然后从数字中减去 2 或 1。如果您使用 RIGHT 公式从您的 URL 列表中删除所有尾部斜杠,则可以缩短该公式——但谁有时间。您剩下的是子目录计数(从 0 开始作为第一个子目录)。
将 C2 替换为第一个 URL 词干/URL 单元格,然后将公式复制到列表中以使其正常工作。
确保用适当的起始单元格替换所有 C2,然后将新的子目录计数列从最小到最大排序,以获得按逻辑顺序排列的漂亮文件夹列表,或轻松按子目录级别进行过滤。例如,如下面的截图所示:
上图是按级别排序的子目录。
上图显示了按深度排序的子目录。
如果您不处理很多 URL,您可以简单地按字母顺序对 URL 进行排序,但这样您将无法进行子目录计数过滤,这对于较大的站点来说可能要快得多。
按内容类型查看抓取频率
找出正在抓取的内容,或者是否有任何内容类型正在耗尽您的抓取预算,是发现抓取预算浪费的好方法。频繁抓取不必要或低优先级的 CSS 和 JS 文件,或者如果您尝试针对图像搜索进行优化,图像的获取方式很容易被这种策略发现。
在 Excel 中,按内容类型查看爬网频率与使用“结尾为”筛选器选项按 URL 或 URI 词干进行筛选一样简单。
快速提示:您还可以使用“不以结尾”过滤器并使用 .html 扩展名来查看非 HTML 页面文件是如何被抓取的 - 总是值得检查以防抓取预算浪费在不必要的 js 或 css 文件上,或者甚至图像和图像变体(查看您的 WordPress)。另外,请记住,如果您的网站有尾部和非尾部斜杠 URL,请使用带有过滤功能的 OR 运算符将它们考虑在内。
监控机器人:了解网站爬行行为
日志文件分析让我们深入了解机器人的行为方式,让我们了解它们的优先级。不同的机器人在不同的情况下表现如何?有了这些知识,您不仅会加深对 Google SEO 和抓取的理解,还会使您在了解网站架构的有效性方面迈出一大步。
最多查看和最少抓取的 URL
此策略之前通过用户代理查看已抓取的 URL 得到改进,但速度要快得多。
在 Excel 中,选择表格中的一个单元格并单击“插入”>“数据透视表”,确保选择收录
必要的列(在本例中为 URL 或 URI 骨架和用户代理),然后单击“确定”。
创建数据透视表后,将行设置为 URL 或 URI 词干,将总值设置为用户代理。
从那里,您可以右键单击 User-Agent 列并按抓取次数从大到小对 URL 进行排序:
现在您将拥有一个很棒的表格,您可以从中制作图表或快速查看并找到任何有问题的区域:
查看此数据时要问自己的一个问题是:您或您的客户是否希望抓取这些页面?多常?更多的抓取并不一定意味着更好的结果,但它可以表明谷歌和其他内容用户代理最优先考虑的是什么。
每天、每周或每月的抓取频率
检查抓取活动以确定在一段时间内失去可见性的问题,在 Google 更新后或在紧急情况下可以告诉您问题可能出在哪里。这就像选择“日期”列一样简单,确保该列是“日期”格式类型,然后在日期列上使用日期过滤选项。如果要分析整周,只需选择具有可用过滤选项的相应日期即可。
通过命令抓取频率
了解 Google 正在遵循哪些指令(例如,如果您在 robots.txt 中使用禁止甚至无索引指令)对于任何 Google SEO 审核或活动都是必不可少的。例如,如果您的网站使用多面导航 URL 的禁令,您需要确保遵守这些规定。如果没有,请提出更好的解决方案,例如元机器人标签之类的页面指令。
要通过命令查看抓取频率,您需要将抓取报告与日志文件分析相结合。
(警告:我们将使用 VLOOKUP,但它实际上并不像人们想象的那么复杂)
获取组合数据:
最新版:优采云
万能文章采集器破解版(文章采集软件) v2.16.0.0中文免费版
对于做网站推广优化的朋友来说,可能经常需要更新一些文章,对于文笔不好的人来说还是有点吃力,那怎么办呢?可以试试这个优采云
万能文章采集
器,它是一款简单实用的文章采集
软件,用户可以设置搜索间隔、采集
类型、时间语言等选项,还可以对采集
的文章进行过滤,插入关键词等,可以大大提高我们的工作效率,是一个非常好的文章采集
工具。各位站长,请下载一个试试看。
ps:小编这里是优采云
万能文章采集
器破解版。附件破解文件可以成功激活软件。详细安装教程请参考以下操作。欢迎免费下载。
软件特色
1、依托优采云
软件独有的通用文字识别智能算法,可实现对任意网页文字的自动提取,准确率达95%以上。
2、只需输入关键词,即可采集百度新闻及网页、搜狗新闻及网页、360新闻及网页、Google新闻及网页、Bing新闻及网页、Yahoo;batch 关键词 自动采集
。
3、指定网站栏目列表下所有文章均可定向采集,智能匹配,无需编写复杂的规则。
4、文章翻译功能,可以将采集
的文章翻译成英文再翻译回中文,实现伪原创翻译,支持谷歌和有道翻译。
" />
5.史上最简单最智能的文章采集器,支持全功能试用,效果你就知道了!
使用帮助
1、软件下载完成后,打开软件包,点击优采云
·Universal 文章采集器
Crack打开软件。软件已经破解,无需再次破解。
2、打开软件后就可以直接开始使用了,在关键词栏中填写您需要采集
的文章关键词。
3、输入完成后,选择文章保存地址和保存选项。
4.设置完成后,点击开始采集。
" />
更新日志
优采云
万能文章采集器V2.13.10.0更新日志(2016-10-19)
采集
列表页面URL功能增加高级参数(两个值用空格分隔,如果值1为空,则自动使用值2)
V2.9.1.0更新日志(2016-05-06)
对部分经过反采集处理的网站增加了增强采集功能。
V2.5.1.0绿色版更新(2015-6-26)
增加雅虎采集
;
其他更新。