搜索引擎优化 pdf(一个严重而且现实的SEO问题是怎么回事?(图))

优采云 发布时间: 2022-01-20 11:19

  搜索引擎优化 pdf(一个严重而且现实的SEO问题是怎么回事?(图))

  简单来说,帖子指出了一个严重而真实的SEO问题:很多网站,尤其是B2C,产品条件过滤系统(比如选择产品的品牌、价格、尺寸、性能、参数等)都会生成一个大量的无效网址,之所以称为无效,只是从SEO的角度来看。这些 URL 没有 SEO 效果,但有负面影响。因此,这些 URL 不是 收录。原因包括:

  大量过滤页面上的重复或非常相似的内容(大量重复会降低网站整体质量)

  大量过滤条件页面没有对应产品,页面无内容(如选择“100元以下42寸LED电视”等)

  大多数过滤条件页面没有排名能力(排名能力远低于类别页面)但浪费了一定的权重

  这些过滤条件页面也不是产品页面收录的必要渠道(产品页面应该有其他内部链接来帮助抓取和收录)

  爬取大量过滤条件页面是对蜘蛛爬取时间的巨大浪费,导致有用页面的机会减少收录(过滤条件页面组合巨大)

  简单来说,帖子指出了一个严重而真实的SEO问题:很多网站,尤其是B2C,产品条件过滤系统(比如选择产品的品牌、价格、尺寸、性能、参数等)都会生成一个大量的无效网址,之所以称为无效,只是从SEO的角度来看。这些 URL 没有 SEO 效果,但有负面影响。因此,这些 URL 不是 收录。原因包括:

  大量过滤页面上的重复或非常相似的内容(大量重复会降低网站整体质量)

  大量过滤条件页面没有对应产品,页面无内容(如选择“100元以下42寸LED电视”等)

  大多数过滤条件页面没有排名能力(排名能力远低于类别页面)但浪费了一定的权重

  这些过滤条件页面也不是产品页面收录的必要渠道(产品页面应该有其他内部链接来帮助抓取和收录)

  爬取大量过滤条件页面是对蜘蛛爬取时间的巨大浪费,导致有用页面的机会减少收录(过滤条件页面组合巨大)

  那么,收录,您如何尝试防止这些 URL 被抓取和编入索引?不幸的是,我目前想不出一个完美的解决方案。提出了两种方法,我认为它们不能完美解决。

  首先是让你不想收录 的URL 保持动态,甚至故意尽可能保持动态,以防止抓取和收录。但是,搜索引擎现在能够抓取 收录 动态 URL,并且在技术上越来越不成问题。虽然确实有太多参数对收录 不利,但4、5 个参数通常是可以的收录。我们无法确定阻止 收录 需要多少参数,因此不能认为它是可靠的方法。而且这些网址接收的是内部链接,没有排名能力,还是会浪费一定的权重。

  第二种方法,robots ban 收录。同样,接收内部链接的 URL 也接收权重。robots文件禁止抓取这些网址,所以接收到的权重无法传递(搜索引擎不抓取就不知道任何导出链接),页面变成权重只能进入不能进入的黑洞访问。.

  nofollow 对这些 URL 的链接并不完美。类似于禁止机器人,谷歌中nofollow的效果是这些网址不接收权重,但是权重没有分配给其他链接,所以权重也被浪费了。百度据称支持nofollow,但如何处理权重尚不清楚。

  把这些 URL 链接放在 Flash 和 JS 中是没有用的。搜索引擎已经可以爬取Flash和JS中的链接,估计以后会越来越擅长爬取。很多 SEO 忽略的一点是,JS 中的链接不仅可以爬取,还可以传递权重,就像普通链接一样。

  过滤条件链接也可以做成AJAX形式,用户点击后不会访问新的URL,或者URL后带#的原URL不会被视为不同的URL。和 JS 问题一样,搜索引擎都在积极尝试爬取和爬取 AJAX 中的内容,这种方法并不安全。

  另一种方法是在页面头部添加noindex+follow标签,表示该页面不被索引,但页面上的链接被关注。这样可以解决重复内容和权重黑洞问题(权重可以随着导出链接转移到其他页面),但不能解决浪费蜘蛛爬取时间的问题,这些页面还是会被爬取通过蜘蛛爬取(然后要看到页面html中的noindex+follow标签),对于一些网站,被过滤的页面数量巨大,爬取这些页面后,蜘蛛没有足够的时间爬取有用页。

  另一种可以考虑的方法是隐藏页面(cloaking),即使用程序检测访问者。如果搜索引擎蜘蛛返回的页面去掉了这些过滤条件链接,如果是用户,则返回带有过滤条件的正常页面。这是一个理想的解决方案,唯一的问题是它可以被认为是作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是:如果没有搜索引擎,你会这样做吗?或者,某种方法是否只用于搜索引擎?显然,隐藏您不想被抓取的 URL 是为搜索引擎完成的,而不是为用户完成的。虽然这种情况下伪装的目的是好的,没有恶意,但也有风险,大胆的可以试试。

  另一种方法是使用规范标签。最大的问题是百度是否支持unknown,而canonical标签是给搜索引擎的建议,而不是指令,也就是说搜索引擎可能不遵守这个标签,相当于没用。另外,canonical 标签是为了指定规范的 URL,过滤条件页面是否适用也有些疑问,毕竟这些页面上的内容往往是不同的。

  目前比较好的方法之一是禁止iframe+robots。将过滤部分代码放入iframe中,相当于调用了其他文件的内容。对于搜索引擎来说,这部分内容不属于当前页面,即内容是隐藏的。但不属于当前页面不代表不存在。搜索引擎可以找到iframe中的内容和链接,而且这些网址还是可以爬取的,所以添加robots禁止爬取。iframe中的内容还是会有一些权重损失,但是因为iframe中的链接并没有从当前页面分配权重,而只是从被调用的文件中分配权重,所以权重损失比较小。除了排版、浏览器兼容性等令人头疼的问题外,iframe 方法的一个潜在问题是被视为作弊的风险。现在搜索引擎一般不认为iframe是作弊的,很多广告都是放在iframe里面的,但是隐藏一堆链接和隐藏广告还是有细微差别的。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。

  简而言之,对于这个现实而严肃的问题,我目前还没有一个完美的答案。当然,如果不能完美解决,那是活不下去的。不同的网站SEO侧重点不同,具体问题详细分析,以上方法中的一种或多种应该可以解决主要问题。

  而且最大的问题不是上面的,而是有时候你想让这些过滤页面被爬取而收录,这就是杯具的开始。稍后再讨论。

  一种是将您不想 收录 的 URL 保留为动态 URL,甚至故意尽可能地动态,以防止抓取和 收录。但是,搜索引擎现在能够抓取 收录 动态 URL,并且在技术上越来越不成问题。虽然确实有太多参数对收录 不利,但4、5 个参数通常是可以的收录。我们无法确定阻止 收录 需要多少参数,因此不能认为它是可靠的方法。而且这些网址接收的是内部链接,没有排名能力,还是会浪费一定的权重。

  第二种方法,robots ban 收录。同样,接收内部链接的 URL 也接收权重。robots文件禁止抓取这些网址,所以接收到的权重无法传递(搜索引擎不抓取就不知道任何导出链接),页面变成权重只能进入不能进入的黑洞访问。.

  nofollow 对这些 URL 的链接并不完美。类似于禁止机器人,谷歌中nofollow的效果是这些网址不接收权重,但是权重没有分配给其他链接,所以权重也被浪费了。百度据称支持nofollow,但如何处理权重尚不清楚。

  把这些 URL 链接放在 Flash 和 JS 中是没有用的。搜索引擎已经可以爬取Flash和JS中的链接,估计以后会越来越擅长爬取。很多 SEO 忽略的一点是,JS 中的链接不仅可以爬取,还可以传递权重,就像普通链接一样。

  过滤条件链接也可以做成AJAX形式,用户点击后不会访问新的URL,或者URL后带#的原URL不会被视为不同的URL。和 JS 问题一样,搜索引擎都在积极尝试爬取和爬取 AJAX 中的内容,这种方法并不安全。

  另一种方法是在页面头部添加noindex+follow标签,表示该页面不被索引,但页面上的链接被关注。这样可以解决重复内容和权重黑洞问题(权重可以随着导出链接转移到其他页面),但不能解决浪费蜘蛛爬取时间的问题,这些页面还是会被爬取通过蜘蛛爬取(然后要看到页面html中的noindex+follow标签),对于一些网站,被过滤的页面数量巨大,爬取这些页面后,蜘蛛没有足够的时间爬取有用页。

  另一种可以考虑的方法是隐藏页面(cloaking),即使用程序检测访问者。如果搜索引擎蜘蛛返回的页面去掉了这些过滤条件链接,如果是用户,则返回带有过滤条件的正常页面。这是一个理想的解决方案,唯一的问题是它可以被认为是作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是:如果没有搜索引擎,你会这样做吗?或者,某种方法是否只用于搜索引擎?显然,隐藏您不想被抓取的 URL 是为搜索引擎完成的,而不是为用户完成的。虽然这种情况下伪装的目的是好的,没有恶意,但也有风险,大胆的可以试试。

  另一种方法是使用规范标签。最大的问题是百度是否支持unknown,而canonical标签是给搜索引擎的建议,而不是指令,也就是说搜索引擎可能不遵守这个标签,相当于没用。另外,canonical 标签是为了指定规范的 URL,过滤条件页面是否适用也有些疑问,毕竟这些页面上的内容往往是不同的。

  目前比较好的方法之一是禁止iframe+robots。将过滤部分代码放入iframe中,相当于调用了其他文件的内容。对于搜索引擎来说,这部分内容不属于当前页面,即内容是隐藏的。但不属于当前页面不代表不存在。搜索引擎可以找到iframe中的内容和链接,而且这些网址还是可以爬取的,所以添加robots禁止爬取。iframe中的内容还是会有一些权重损失,但是因为iframe中的链接并没有从当前页面分配权重,而只是从被调用的文件中分配权重,所以权重损失比较小。除了排版、浏览器兼容性等令人头疼的问题外,iframe 方法的一个潜在问题是被视为作弊的风险。现在搜索引擎一般不认为iframe是作弊的,很多广告都是放在iframe里面的,但是隐藏一堆链接和隐藏广告还是有细微差别的。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。

  简而言之,对于这个现实而严肃的问题,我目前还没有一个完美的答案。当然,如果不能完美解决,那是活不下去的。不同的网站SEO侧重点不同,具体问题详细分析,以上方法中的一种或多种应该可以解决主要问题。

  而且最大的问题不是上面的,而是有时候你想让这些过滤页面被爬取而收录,这就是杯具的开始。稍后再讨论。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线