这是史诗般的:您的重复内容问题比千百度站群您意识到要大
优采云 发布时间: 2021-08-14 05:11这是史诗般的:您的重复内容问题比千百度站群您意识到要大
内容重复。我们都知道。 文章 写了无数关于它为什么不好以及如何避免它的文章。但是,也许您有重复内容的问题,甚至不知道它的存在。否则,你的重复内容问题比你意识到的千百度站群更大。如此之大,堪称史诗。
这是我最近在查看客户网站 时发现的。我们不是在谈论多个站点之间的 ** 内容。不是刮板网站或翻录网站。网站。原创且唯一来源。正是通过法医策略,我才发现问题的严重性。多么史诗。史诗级的数量级。
在这种情况下,我们谈论的是房地产网站。覆盖加利福尼亚州的大部分办公室位于加利福尼亚州北部和南部。 2010 年的房屋总销售额达数十亿美元。
网站:–关键指标
每当我进行 SEO 审核时,我都会运行网站:将站群 作为我的首要任务之一,然后询问客户他们实际拥有多少页面。这只是为了了解该站点当前的索引情况。在我最初的检查中,该站点显示索引了 86,000 个页面。但实际上只有大约 15,000 个页面。哇。真的吗?天啊……
现在,运行网站并不少见:检查并获得显示的页面少于实际存在的页面。找到的页面的公开显示只是一个近似值,并且取决于站点的索引情况、站群 在任何给定时刻的算法以及由于竞争因素导致的结果波动。
但这是一个相反的索引问题。显示的页面数量是实际存在的页面数量的五倍以上。所以我回去开始检查网站,我的感官处于完全警觉状态。
1999 年被称为并希望它的编程方法回来
我发现在我的“那是不对的”过程中敲响了*敏*感*词*的是发现他们有超过 400 个代理页面 – 不 – 一个大型房地产网站有数百个代理页面并不奇怪。它是当您访问这些页面中的任何一个时,下次您单击主导航中的任何页面时,代理的 ID 将保留在 URL 上。主页链接不再转到主站点主页,而是返回代理主页。
这是在 URL 字符串中传递标识符的常见编程方法。除了我立即知道然后检查规范 URL 标记以查看 站群 是否将这些 URL 标记作为真正的“唯一”页面,或者 网站 是否被编码为“未为此版本编入索引”。
没有规范标签。任何地方。
是的,快速计算时间 – 15,000 页 – 400 个代理。有六百万页可能被编入索引。除了我只看到其中的百分之一。这对现实来说仍然太过分了。然而,这原本并不是一场“天啊”的灾难。还是?
取证 SEO 策略
这就是我真正好奇的地方——我真的需要仔细研究所有这些结果来弄清楚发生了什么吗?不,不是我。绝不。不是相反,我让我的大脑在这个问题上咀嚼。
我想通了——让我们先搜索站群,看看这些代理附加的任何URL是否实际显示。果然,我手动尝试过的每个工具都在那里。
从那里,我执行了一个高级站点:检查。在这些特定的 URL 中,使用了一系列字母作为变量标识符——因此 URL 字符串中 XYZ 之后的所有内容都是代理的唯一 ID。因此,我的搜索如下所示:Site: + XYZ
猜猜我发现了什么?它不是 60,000 页(从实际计数到“找到的页数”计数的“多余”)。我发现的是
找到 509,000 页
太好了。很棒
发生了什么?
更多测试。这一次,我在这些代理 URL 中使用了不同的代码块来运行它。我得到了什么?
找到 120 万页
哇。这真是一团糟。我的第一个念头是——怎么会有这种完全疯狂的变化?
站群–“我们尽力而为”
事实证明,问题是多层次的。在任何给定时间,站群Bot 都会尝试抓取该站点。在某个时刻,等你厌倦了探索一个地方,然后逃到那里的下一个闪亮的物体。特别是当这些代理页面位于链接链中的多个级别时。这意味着从那里链接的所有页面也“技术上”(但不是真的)在链接链的更下游。
然后,即使这些页面中的一些最终出现在索引中,在某些时候,站群 也会看到“嘿,这个内容和其他内容完全一样。”
尽管有人声称(谢谢马特!)“站群 在解决问题方面做得很好”,这是一个很好的例子,说明为什么这是一个不完美的系统。本质上,在处理所有这些数据的过程中,系统会陷入困境。在这种特殊情况下,甚至可能会有一些不适。
但总的来说,考虑到索引中实际上有超过一百万个“页面”,他们可以将其减少几个数量级,降至 86,000(仍然高得离谱)页面范围。
足够好还不够
所以站群的sy在没有进一步指导的情况下最多只能将stem减少到86,000个寻呼机。仍有 70,000 页是重复的。这意味着仍然存在大问题。
站群我怎么知道哪个版本最重要?各种搜索结果前十二页的大部分结果都是主站版本,没有代理附件。但不是所有的。对于某些短语,首先显示所有代理页面。
反过来,这意味着最重要的页面没有获得全部价值。*敏*感*词*。
解决方案没那么简单
所以你是在自言自语——只是在那里取了一个规范标签。问题解决了。
好的,这很重要。唯一的好处是未来的体验。 网站 将永远是这样。您想成为确保正确实施 301 重定向以应对这种混乱的人吗?好吧,如果您是 REGEX 的天才,也许您会。我,没那么多。
然后有必要(是的,有必要站群文章采集器) o 将整个网站 重新编码为“停止使用 URL 字符串”。因为我不在乎站群 会说你只需要标准化标签多少。因为并非每个搜索引擎或链接提供商(有意或无意)都支持这一点。
即使对于站群,它也只是“一个指标”。这不是保证。
不,这里唯一正确的最佳实践任务是消除所有这些 URL 参数。只需使用 cookie 大喊大叫即可。
这意味着这是一些可怜的代码猴子的代码梦想..
有更多的质量检查来确保一切都正确完成。总的来说网站。
幸运的是,我不是必须编写代码的人。但我是必须对此进行质量检查的人。是的。谢谢。我会在这里蜷缩成一个胎儿球。失控地哭了起来。至少在我对 Twitter 上的程序感到满意之前。