搜索引擎禁止的方式优化网站(谷歌计划处罚过度使用搜索引擎优化技术网站未经完全同意就很难取胜)

优采云 发布时间: 2022-03-18 18:24

  搜索引擎禁止的方式优化网站(谷歌计划处罚过度使用搜索引擎优化技术网站未经完全同意就很难取胜)

  一:谷歌计划惩罚过度使用 SEO 技术 网站

  3月19日,据外媒报道,一名谷歌工程师表示,谷歌目前正准备重组其搜索引擎设备,让过度使用搜索优化技术的网站在没有完全同意的情况下很难获胜。.

  据报道,谷歌目前正计划惩罚过度使用 SEO 技术的 网站。Google 搜索引擎领域的 Barry Schwartz 在最近的 Southwest South Talks 上发布了一个小组讨论的视频剪辑,其中 Matt Cutts 讨论了该计划。

  据了解,谷歌正准备采取这一措施,以确保“过度使用搜索引擎优化技术(SEO)的网站与高度满意的网站”之间的公平。施瓦茨引用卡茨的话说。

  “我们正在努力让 GoogleBot 变得更智能,以便我们可以提供更好的相关信息,并且我们也在努力识别滥用它的人,例如一页上有太多关键字,或者交换太多链接等 网站 未按照正常惯例运行。”

  据悉,施瓦茨表示,这些变化将在“未来几个月或几周内”开始影响搜索结果,尽管谷歌官员尚未对此事发表官方评论。

  《*敏*感*词*日报》本周早些时候表示,谷歌将对其搜索系统进行前所未有的详细改革。大修将包括“语义搜索”,包括对搜索引擎优化、广告和页面排名结果的一些更改。

  二:网站如何在优化中尽量减少无效网址的抓取和索引

  简单来说,帖子指出了一个严重而真实的SEO问题:很多网站,尤其是B2C,产品条件过滤系统(比如选择产品的品牌、价格、尺寸、性能、参数等)都会生成一个大量的无效网址,之所以称为无效,只是从SEO的角度来看。这些 URL 没有 SEO 效果,但有负面影响。因此,这些 URL 不是 收录。原因包括:

  大量过滤条件页面内容重复或非常相似(大量复制内容会降低网站的整体质量) 大量过滤条件页面没有对应的产品,页面有无内容(如选择“100元以下42寸LED电视”等) 大部分过滤条件页面没有排名能力(排名能力远低于类别页面),但浪费了一定重量。这些过滤条件页面对于产品页面收录(产品页面应该有其他内部链接帮助爬取和收录)来说不是必须的渠道,爬取大量的过滤条件页面大大浪费了蜘蛛爬取时间,导致有用页面的机会减少 收录

  大量过滤条件页面内容重复或非常相似(大量复制内容会降低网站的整体质量) 大量过滤条件页面没有对应的产品,页面有无内容(如选择“100元以下42寸LED电视”等) 大部分过滤条件页面没有排名能力(排名能力远低于类别页面),但浪费了一定重量。这些过滤条件页面对于产品页面收录(产品页面应该有其他内部链接帮助爬取和收录)来说不是必须的渠道,爬取大量的过滤条件页面大大浪费了蜘蛛爬取时间,导致有用页面的机会减少 收录 (过滤条件页面的组合是巨大的),那么如何尽量不让这些URL被抓取和索引呢,收录?不幸的是,我目前想不出一个完美的解决方案。提出了两种方法,我认为它们不能完美解决。

  首先是让你不想收录 的URL 保持动态,甚至故意尽可能保持动态,以防止抓取和收录。但是,搜索引擎现在能够抓取 收录 动态 URL,并且在技术上越来越不成问题。虽然确实有太多参数对收录 不利,但4、5 个参数通常是可以的收录。我们无法确定阻止 收录 需要多少参数,因此不能认为它是可靠的方法。而且这些网址接收的是内部链接,没有排名能力,还是会浪费一定的权重。

  第二种方法,robots ban 收录。同样,接收内部链接的 URL 也接收权重。robots文件禁止抓取这些网址,所以接收到的权重无法传递(搜索引擎不抓取就不知道任何导出链接),页面变成权重只能进入不能进入的黑洞访问。.

  nofollow 对这些 URL 的链接并不完美。类似于禁止机器人,谷歌中nofollow的效果是这些网址不接收权重,但是权重没有分配给其他链接,所以权重也被浪费了。百度据称支持nofollow,但如何处理权重尚不清楚。

  把这些 URL 链接放在 Flash 和 JS 中是没有用的。搜索引擎已经可以爬取Flash和JS中的链接,估计以后会越来越擅长爬取。很多 SEO 忽略的一点是,JS 中的链接不仅可以爬取,还可以传递权重,就像普通链接一样。

  过滤条件链接也可以做成AJAX形式,用户点击后不会访问新的URL,或者URL后带#的原URL不会被视为不同的URL。和 JS 问题一样,搜索引擎都在积极尝试爬取和爬取 AJAX 中的内容,这种方法并不安全。

  另一种方法是在页面头部添加noindex+follow标签,表示该页面不被索引,但页面上的链接被关注。这样可以解决重复内容和权重黑洞问题(权重可以通过导出链接转移到其他页面),但不能解决浪费蜘蛛抓取时间的问题,这些页面仍然会被蜘蛛爬取(这时要看到页面html中的noindex+follow标签),对于一些网站,被过滤的页面数量巨大,爬完这些页面后,蜘蛛没有足够的时间去爬取有用的页面.

  另一种可以考虑的方法是隐藏页面(cloaking),即使用程序检测访问者。如果搜索引擎蜘蛛返回的页面去掉了这些过滤条件链接,如果是用户,则返回带有过滤条件的正常页面。这是一个理想的解决方案,唯一的问题是它可以被认为是作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是:如果没有搜索引擎,你会这样做吗?或者,某种方法是否只用于搜索引擎?显然,隐藏您不想被抓取的 URL 是为搜索引擎完成的,而不是为用户完成的。虽然这种情况下伪装的目的是好的,没有恶意,但也有风险,大胆的可以试试。

  另一种方法是使用规范标签。最大的问题是百度是否支持unknown,而canonical标签是给搜索引擎的建议,而不是指令,也就是说搜索引擎可能不遵守这个标签,相当于没用。另外,canonical 标签是为了指定规范的 URL,过滤条件页面是否适用也有些疑问,毕竟这些页面上的内容往往是不同的。

  目前比较好的方法之一是禁止iframe+robots。将过滤部分代码放入iframe中,相当于调用了其他文件的内容。对于搜索引擎来说,这部分内容不属于当前页面,即内容是隐藏的。但不属于当前页面不代表不存在。搜索引擎可以找到iframe中的内容和链接,而且这些网址还是可以爬取的,所以添加robots禁止爬取。iframe中的内容还是会有一些权重损失,但是因为iframe中的链接并没有从当前页面分配权重,而只是从被调用的文件中分配权重,所以权重损失比较小。除了排版、浏览器兼容性等令人头疼的问题外,iframe 方法的一个潜在问题是被视为作弊的风险。现在搜索引擎一般不认为iframe是作弊的,很多广告都是放在iframe里面的,但是隐藏一堆链接和隐藏广告还是有细微差别的。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。

  简而言之,对于这个现实而严肃的问题,我目前还没有一个完美的答案。当然,如果不能完美解决,那是活不下去的。不同的网站SEO侧重点不同,具体问题详细分析,以上方法中的一种或多种应该可以解决主要问题。

  而且最大的问题不是上面的,而是有时候你想让这些过滤页面被爬取而收录,这就是杯具的开始。稍后再讨论。

  一种是将您不想 收录 的 URL 保留为动态 URL,甚至故意尽可能地动态,以防止抓取和 收录。但是,搜索引擎现在能够抓取 收录 动态 URL,并且在技术上越来越不成问题。虽然确实有太多参数对收录 不利,但4、5 个参数通常是可以的收录。我们无法确定阻止 收录 需要多少参数,因此不能认为它是可靠的方法。而且这些网址接收的是内部链接,没有排名能力,还是会浪费一定的权重。

  第二种方法,robots ban 收录。同样,接收内部链接的 URL 也接收权重。robots文件禁止抓取这些网址,所以接收到的权重无法传递(搜索引擎不抓取就不知道任何导出链接),页面变成权重只能进入不能进入的黑洞访问。.

  nofollow 对这些 URL 的链接并不完美。类似于禁止机器人,谷歌中nofollow的效果是这些网址不接收权重,但是权重没有分配给其他链接,所以权重也被浪费了。百度据称支持nofollow,但如何处理权重尚不清楚。

  把这些 URL 链接放在 Flash 和 JS 中是没有用的。搜索引擎已经可以爬取Flash和JS中的链接,估计以后会越来越擅长爬取。很多 SEO 忽略的一点是,JS 中的链接不仅可以爬取,还可以传递权重,就像普通链接一样。

  过滤条件链接也可以做成AJAX形式,用户点击后不会访问新的URL,或者URL后带#的原URL不会被视为不同的URL。和 JS 问题一样,搜索引擎都在积极尝试爬取和爬取 AJAX 中的内容,这种方法并不安全。

  另一种方法是在页面头部添加noindex+follow标签,表示该页面不被索引,但页面上的链接被关注。这样可以解决重复内容和权重黑洞问题(权重可以通过导出链接转移到其他页面),但不能解决浪费蜘蛛抓取时间的问题,这些页面仍然会被蜘蛛爬取(这时要看到页面html中的noindex+follow标签),对于一些网站,被过滤的页面数量巨大,爬完这些页面后,蜘蛛没有足够的时间去爬取有用的页面.

  另一种可以考虑的方法是隐藏页面(cloaking),即使用程序检测访问者。如果搜索引擎蜘蛛返回的页面去掉了这些过滤条件链接,如果是用户,则返回带有过滤条件的正常页面。这是一个理想的解决方案,唯一的问题是它可以被认为是作弊。搜索引擎经常告诉SEO判断是否作弊的最高原则是:如果没有搜索引擎,你会这样做吗?或者,某种方法是否只用于搜索引擎?显然,隐藏您不想被抓取的 URL 是为搜索引擎完成的,而不是为用户完成的。虽然这种情况下伪装的目的是好的,没有恶意,但也有风险,大胆的可以试试。

  另一种方法是使用规范标签。最大的问题是百度是否支持unknown,而canonical标签是给搜索引擎的建议,而不是指令,也就是说搜索引擎可能不遵守这个标签,相当于没用。另外,canonical 标签是为了指定规范的 URL,过滤条件页面是否适用也有些疑问,毕竟这些页面上的内容往往是不同的。

  目前比较好的方法之一是禁止iframe+robots。将过滤部分代码放入iframe中,相当于调用了其他文件的内容。对于搜索引擎来说,这部分内容不属于当前页面,即内容是隐藏的。但不属于当前页面不代表不存在。搜索引擎可以找到iframe中的内容和链接,而且这些网址还是可以爬取的,所以添加robots禁止爬取。iframe中的内容还是会有一些权重损失,但是因为iframe中的链接并没有从当前页面分配权重,而只是从被调用的文件中分配权重,所以权重损失比较小。除了排版、浏览器兼容性等令人头疼的问题外,iframe 方法的一个潜在问题是被视为作弊的风险。现在搜索引擎一般不认为iframe是作弊的,很多广告都是放在iframe里面的,但是隐藏一堆链接和隐藏广告还是有细微差别的。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。回到判断搜索引擎作弊的一般原则,很难说这不是专门针对搜索引擎做的。记得 Matt Cutts 说过,Google 未来可能会改变他们处理 iframe 的方式,他们仍然希望看到普通用户在同一页面上可以看到的所有内容。

  简而言之,对于这个现实而严肃的问题,我目前还没有一个完美的答案。当然,如果不能完美解决,那是活不下去的。不同的网站SEO侧重点不同,具体问题详细分析,以上方法中的一种或多种应该可以解决主要问题。

  而且最大的问题不是上面的,而是有时候你想让这些过滤页面被爬取而收录,这就是杯具的开始。稍后再讨论。

  三:网站优化搜索引擎收录网页的四个阶段

  作为一名SEO从业者,不仅要被搜索引擎爬取,还要成为收录,最重要的是在收录之后有一个不错的排名,本文将简要分析搜索引擎< @收录 网页的四个阶段。每个网站和每个网页的排名都不一样,你的网站在哪个阶段?

  

  网页收录第一阶段:大小

  搜索引擎的网页爬取采用“大小通吃”的策略,即将网页中能找到的链接一一添加到待爬取的URL中,新爬取网页中的URL被机械提取。虽然这个方法比较老了,但是效果很好,这也是很多站长响应蜘蛛访问的原因,但是没有收录的理由,这只是第一阶段。

  页面收录第 2 阶段:页面评级

  第二阶段是评价网页的重要性。PageRank 是一种著名的链接分析算法,可以用来衡量网页的重要性。站长自然可以利用PageRank的思想对网址进行排名。这就是大家热衷的“失败链条”。据一位朋友介绍,中国“褪色链”市场每年有上亿元的规模。

  爬虫的目的是下载网页,但PageRank是全局算法,即当所有网页都下载完毕后,计算结果才可靠。对于中小网站,如果服务器质量不好,如果在爬取过程中只看到部分内容,在爬取阶段是不可能得到可靠的PageRank分数的。

  网页收录第三阶段:OCIP 策略

  OCIP 策略更像是对 PageRank 算法的改进。在算法开始之前,每个网页都会获得相同的“*敏*感*词*”。每当某个页面A被下载时,A将他的“*敏*感*词*”平均分配给该页面所收录的链接页面,并清空他的“*敏*感*词*”。这就是为什么导出的链接越少,权重越高的原因之一。

  对于要爬取的网页,会按照手头*敏*感*词*数量进行排序,*敏*感*词*最多的网页会被优先下载。OCIP 与 PageRank 大致相同。不同的是PageRank每次都需要迭代计算,而OCIP则不需要,所以计算速度比PageRank快很多,适合实时计算使用。这可能是很多网页都有“秒”的原因。

  网页收录第四阶段:大网站优先策略

  大型网站的优先级的想法非常简单。网页的重要性以 网站 为单位衡量。对于URL队列中待抓取的网页,按照网站进行分类,如果其中网站等待下载的页面最多,则先下载这些链接。基本思想是“倾向于先下载大的 网站URL”。因为大的 网站 往往收录更多的页面。鉴于大型网站往往是知名网站,其网页质量普遍较高,这个想法虽然简单,但有一定的根据。

  实验表明,该算法虽然简单粗暴,但可以收录高质量的网页,非常有效。这也是大展在众多网站内容被转发后排在你前面的最重要原因之一。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线