搜索引擎优化 pdf(一个严重而且现实的SEO问题是怎么回事？(图))

优采云发布时间: 2022-01-20 11:19

　　简单来说，帖子指出了一个严重而真实的SEO问题：很多网站，尤其是B2C，产品条件过滤系统（比如选择产品的品牌、价格、尺寸、性能、参数等）都会生成一个大量的无效网址，之所以称为无效，只是从SEO的角度来看。这些 URL 没有 SEO 效果，但有负面影响。因此，这些 URL 不是收录。原因包括：

　　大量过滤页面上的重复或非常相似的内容（大量重复会降低网站整体质量）

　　大量过滤条件页面没有对应产品，页面无内容（如选择“100元以下42寸LED电视”等）

　　大多数过滤条件页面没有排名能力（排名能力远低于类别页面）但浪费了一定的权重

　　这些过滤条件页面也不是产品页面收录的必要渠道（产品页面应该有其他内部链接来帮助抓取和收录）

　　爬取大量过滤条件页面是对蜘蛛爬取时间的巨大浪费，导致有用页面的机会减少收录（过滤条件页面组合巨大）

　　简单来说，帖子指出了一个严重而真实的SEO问题：很多网站，尤其是B2C，产品条件过滤系统（比如选择产品的品牌、价格、尺寸、性能、参数等）都会生成一个大量的无效网址，之所以称为无效，只是从SEO的角度来看。这些 URL 没有 SEO 效果，但有负面影响。因此，这些 URL 不是收录。原因包括：

　　大量过滤页面上的重复或非常相似的内容（大量重复会降低网站整体质量）

　　大量过滤条件页面没有对应产品，页面无内容（如选择“100元以下42寸LED电视”等）

　　大多数过滤条件页面没有排名能力（排名能力远低于类别页面）但浪费了一定的权重

　　这些过滤条件页面也不是产品页面收录的必要渠道（产品页面应该有其他内部链接来帮助抓取和收录）

　　爬取大量过滤条件页面是对蜘蛛爬取时间的巨大浪费，导致有用页面的机会减少收录（过滤条件页面组合巨大）

　　那么，收录，您如何尝试防止这些 URL 被抓取和编入索引？不幸的是，我目前想不出一个完美的解决方案。提出了两种方法，我认为它们不能完美解决。

　　首先是让你不想收录的URL 保持动态，甚至故意尽可能保持动态，以防止抓取和收录。但是，搜索引擎现在能够抓取收录动态 URL，并且在技术上越来越不成问题。虽然确实有太多参数对收录不利，但4、5 个参数通常是可以的收录。我们无法确定阻止收录需要多少参数，因此不能认为它是可靠的方法。而且这些网址接收的是内部链接，没有排名能力，还是会浪费一定的权重。

　　第二种方法，robots ban 收录。同样，接收内部链接的 URL 也接收权重。robots文件禁止抓取这些网址，所以接收到的权重无法传递（搜索引擎不抓取就不知道任何导出链接），页面变成权重只能进入不能进入的黑洞访问。.

　　nofollow 对这些 URL 的链接并不完美。类似于禁止机器人，谷歌中nofollow的效果是这些网址不接收权重，但是权重没有分配给其他链接，所以权重也被浪费了。百度据称支持nofollow，但如何处理权重尚不清楚。

　　把这些 URL 链接放在 Flash 和 JS 中是没有用的。搜索引擎已经可以爬取Flash和JS中的链接，估计以后会越来越擅长爬取。很多 SEO 忽略的一点是，JS 中的链接不仅可以爬取，还可以传递权重，就像普通链接一样。

　　过滤条件链接也可以做成AJAX形式，用户点击后不会访问新的URL，或者URL后带#的原URL不会被视为不同的URL。和 JS 问题一样，搜索引擎都在积极尝试爬取和爬取 AJAX 中的内容，这种方法并不安全。

　　另一种方法是在页面头部添加noindex+follow标签，表示该页面不被索引，但页面上的链接被关注。这样可以解决重复内容和权重黑洞问题（权重可以随着导出链接转移到其他页面），但不能解决浪费蜘蛛爬取时间的问题，这些页面还是会被爬取通过蜘蛛爬取（然后要看到页面html中的noindex+follow标签），对于一些网站，被过滤的页面数量巨大，爬取这些页面后，蜘蛛没有足够的时间爬取有用页。

　　另一种可以考虑的方法是隐藏页面（cloaking），即使用程序检测访问者。如果搜索引擎蜘蛛返回的页面去掉了这些过滤条件链接，如果是用户，则返回带有过滤条件的正常页面。这是一个理想的解决方案，唯一的问题是它可以被认为是作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是：如果没有搜索引擎，你会这样做吗？或者，某种方法是否只用于搜索引擎？显然，隐藏您不想被抓取的 URL 是为搜索引擎完成的，而不是为用户完成的。虽然这种情况下伪装的目的是好的，没有恶意，但也有风险，大胆的可以试试。

　　另一种方法是使用规范标签。最大的问题是百度是否支持unknown，而canonical标签是给搜索引擎的建议，而不是指令，也就是说搜索引擎可能不遵守这个标签，相当于没用。另外，canonical 标签是为了指定规范的 URL，过滤条件页面是否适用也有些疑问，毕竟这些页面上的内容往往是不同的。

　　目前比较好的方法之一是禁止iframe+robots。将过滤部分代码放入iframe中，相当于调用了其他文件的内容。对于搜索引擎来说，这部分内容不属于当前页面，即内容是隐藏的。但不属于当前页面不代表不存在。搜索引擎可以找到iframe中的内容和链接，而且这些网址还是可以爬取的，所以添加robots禁止爬取。iframe中的内容还是会有一些权重损失，但是因为iframe中的链接并没有从当前页面分配权重，而只是从被调用的文件中分配权重，所以权重损失比较小。除了排版、浏览器兼容性等令人头疼的问题外，iframe 方法的一个潜在问题是被视为作弊的风险。现在搜索引擎一般不认为iframe是作弊的，很多广告都是放在iframe里面的，但是隐藏一堆链接和隐藏广告还是有细微差别的。回到判断搜索引擎作弊的一般原则，很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过，Google 未来可能会改变他们处理 iframe 的方式，他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则，很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过，Google 未来可能会改变他们处理 iframe 的方式，他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则，很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过，Google 未来可能会改变他们处理 iframe 的方式，他们仍然希望看到普通用户在同一页面上可以看到的所有内容。

　　简而言之，对于这个现实而严肃的问题，我目前还没有一个完美的答案。当然，如果不能完美解决，那是活不下去的。不同的网站SEO侧重点不同，具体问题详细分析，以上方法中的一种或多种应该可以解决主要问题。

　　而且最大的问题不是上面的，而是有时候你想让这些过滤页面被爬取而收录，这就是杯具的开始。稍后再讨论。

　　一种是将您不想收录的 URL 保留为动态 URL，甚至故意尽可能地动态，以防止抓取和收录。但是，搜索引擎现在能够抓取收录动态 URL，并且在技术上越来越不成问题。虽然确实有太多参数对收录不利，但4、5 个参数通常是可以的收录。我们无法确定阻止收录需要多少参数，因此不能认为它是可靠的方法。而且这些网址接收的是内部链接，没有排名能力，还是会浪费一定的权重。