99%网站都会存在重复内容——收下这份超全清单!
优采云 发布时间: 2022-05-04 22:0099%网站都会存在重复内容——收下这份超全清单!
网站在切入SEO优化时,往往都是从站内技术问题整改开始,而在这其中,解决“重复内容”是尤为重要且常见的一点。可以毫不夸张的说,99%的网站都会遇到重复内容的问题,但很多人并未意识到它的出现。本文作为一个checklist,希望能帮助大家诊断和解决过多的重复内容页面,完成SEO优化之路的一个重要里程碑。
重复内容的后果
首先了解一下什么是重复内容?重复内容通常是指网站内部或跨域之间完全匹配或大致类似的有一定体量的内容。多数情况下,其成因并不具有欺骗性质,所以并不会导致网站遭受惩罚。
仅在极个别情况下,Google 才会认为重复内容的用意是操纵页面排名并欺骗用户,当此类情况出现时,Google才会对相应网站的索引和排名进行适当的调整。
网站出现大量重复内容,会对网站产生负面影响:
重复内容的类型
也许你的网站只是简单的CMS模板搭建,页面数量少,问题不多;也许你的网站拥有上百万个页面和多个目标国家市场,非常复杂;也许你使用的CMS功能限制,自定义程度很高。
无论网站是什么量级和特点,出现的重复内容问题都是类似的,可归类分析的,下文将为您详细介绍,可细想一下哪条你有中招?
Caused by站内技术问题
由于网站内部的技术问题导致大量的重复内容,最常见的就是网站上有多个不同的URL却显示相同的内容。
重复内容类型
Caused by内容策略不当
除了网站技术引发的重复,网站不恰当的内容策略也会引发此类问题,毕竟身处信息爆炸时代,内容生产和过期的速度都很快。
⭐对于拥有几百万页面的大型资讯站点,内容产出频率高,重复内容和内部竞争的问题很是上头。
重复内容类型
互动问答环节
问:如果其他网站抄袭我们的内容,被动的产生重复内容,怎么办?
答:Google算法已经能很好的识别原创内容的网站,不用担心影响排名。您可以与该网站的站长联系,要求其移除相关内容。此外,也可根据《Digital Millennium Copyright Act》提交请求,以请求 Google 从搜索结果中移除涉嫌侵权的网页。
⭐如果拥有的是零售电商网站呢?网站以产品页面为主,博客文章只占少数,同样不可掉以轻心。
重复内容类型
Caused by服务器配置问题
如果网站服务器端配置出现错误,也有很大概率出现重复内容问题,但大多数网站运营者都很难意识到。
重复内容类型
Caused by国际化/多域名的网站
如果你的网站面向国际市场,可能会运营不同的国家顶级域名或二级域名站点,那就需要将您网页的本地化版本告知 Google。
重复内容类型
如何诊断?
借助搜索引擎查询命令或是相关检查工具,发现并精准找到问题的原因,对我来说,这是SEO需要掌握的核心内容。为了帮助大家快速诊断网站,下面介绍了三种方式:
Google Search Console索引报告
最直接的方式就是在Google Search Console后台的“Coverage”报告中查看索引错误或被排除索引的问题链接列表,它会很清晰的显示你的网站因为什么原因而没有被索引,如下图所示:
搜索引擎查询命令
查找重复内容的另一种简单方法是使用Google查询命令。只需从您的网站中复制一段文本内容,然后将其用双引号括起来即可在Google上进行搜索。
如果想知道网站被收录了多少页面,除了Google Search Console中的Valid URL数量,使用查询命令site:也能得到网站页面索引数(取决于网站的规模,仅作为参考值)
或是将下面的这几个查询命令结合起来使用,快速检测出属于重复内容的页面,事半功倍。
✅ site:
查询网站索引页面数
✅ site: intitle:keyword
查询网站所有包含keyword的页面
✅ site: inurl:keyword
查询网站所有URL包含keyword的页面
✅ site: filetype:xml/txt/pdf
查询网站包含这类资源格式的页面
模拟抓取工具
有需求就有市场,检测网站重复内容的工具越来越多,功能也越来越丰富。找到适合你的,才是最重要的。此处主要推荐模拟爬虫抓取工具,Screaming Frog作为市面上非常流行的模拟抓取工具,它可以帮助你迅速发现网站重复的title,description,h标签,url等信息,并批量导出报告,便于分析。当然,如果你正在使用同类型的抓取工具如Deepcrawl和Sitebulb,综合型SEO工具如Ahrefs和SEMRush,同样可行。
如何优化
当你了解哪些属于重复内容,并且通过诊断精准定位了问题页面后,最重要的就是如何优化并解决重复内容,从而聚合页面权重,提高搜索引擎爬虫对网站的抓取效率,提升有效页面收录量。
设置301重定向
对搜索引擎来说,301重定向意味着永久改变地址,可以传递绝大部分页面权重和排名。
如果一个页面拥有多个URL入口,或是新旧版本文章内容更替等情况,建议整理出我们期望收录的规范化地址,设置其他页面做301重定向到规范化页面,聚合页面权重。
添加rel="canonical"
网站所有页面都应该添加rel="canonical" link 元素,帮助Google选择一个网址作为规范版本并抓取该网址,而将所有其他网址视为重复网址并降低对这些网址的抓取频率,聚合页面权重。
Canonical标签不像301重定向那样可以基本完全传递原来的权重,但大部分的权重还是可以聚合于首选的页面的,前提是标识的这两个页面内容需要相同或高度相似。如果要保留所有的已有的URL均能被正常访问且不好设置301重定向,那么可以使用这种折中方案。
Canonical注意事项:
1) Canonical标签只是一个建议,并不是指令,所以搜索引擎会在很大程度上考虑这个标签,但并不是百分百遵守,搜索引擎还会考虑其他情况来判断规范化地址。
2) 标签需要使用绝对地址。(即URL需要带上http或https协议)
3) Canonical指定的首选页面的内容,与其他使用这个标签的非规范化网址内容要完全相同或高度相似,否则很可能不起作用。使用301则没有这个限制。建议站长在使用canonical标签时要仔细检查,确认两个页面是完全相同的。即使页面高度相似,canonical标签被遵守的可能性也会降低。
添加Noindex标签
如果301重定向和Canonical标签都不方便设置,只希望搜索引擎不要收录那些重复页面,这种情况下可以在页面源代码中添加Noindex标签。禁止搜索引擎索引本页面,但允许蜘蛛继续抓取页面上的其他链接,也可以传递权重。如下:
Robots.txt代表禁止抓取(但不影响索引),Noindex代表禁止索引(但不影响抓取),抓取和索引是不同的两个过程,但经验不足的人可能会倾向于阻止使用robots.txt来解决重复页面,属于治标不治本,最好将这些页面设置为noindex(或在不再需要时将其重定向)。例如网站存在一些内容缺失页面,或是网站内部搜索页面都不想被收录,可将这类页面添加Noindex标签,确认其从Google索引中去除后,再添加到robots.txt文件中,禁止爬虫抓取。
确保内链规范化
网站内部链接入口都应确保是规范化地址,即提高爬虫抓取效率,减少重复页面的抓取入口。例如首页导航的Home,网站Logo,面包屑中首页层级入口,都应统一为首选的URL。
尽量减少模板化内容
例如电商网站的各个产品页面不要显示重复的shipping,warranty等条款,建议只用锚文本添加内链即可,链接到能够提供详细信息的单独网页。同时还需要最大限度地减少相似内容,例如网站定期发布版本更新文档,建议考虑增加每个新版本文档的独特性内容,或将这些版本网页合并成一个。
坚持发布原创内容
如果公司同时运营多个平台,例如产品可能会在ebay,amazon和官网上同时售卖,建议保证官网能尽量做到发布原创内容,即网站产品和分类的描述内容尽可能做到单独定制化、可读性强,提高页面的长期竞争力。如果你的产品采购于供应商,那么更需要在供应商提供的产品详情信息上进行优化,避免和其他网站信息产生重复。
PS:如果网站产品SKU过多,内容更新的工作将十分漫长,难以推进,建议先从GA等分析工具中筛选出Top流量的产品页面,从重点品类入手。
保持网站URL稳定
如果可以,网站页面URL尽量不要轻易更改,因为保持URL稳定比在URL中不断填充新的关键词更为重要。时间一长,新旧URL更替容易产生404错误或其他重复问题。
避免网站内容被无条件引用
如果你运营的是一个咨询内容站点,网站拥有大量高质量文档,容易被竞争对手或其他平台所采集、引用等,建议在别人复制我们的网站内容时,设置自动添加网站版权信息和原始页面链接,确保我们内容的原创性。
希望这份checklist能有帮助,如果大家有更好的解决思路,欢迎讨论!
Sunny 李兰
现任环创网络SEO咨询师;曾任职环球易购,担任Gearbest社交媒体主管;数字营销90后新生力量,思维活跃,拥有海外主流社交媒体百万粉丝运营经验;服务客户包括华为、龙晨时代、Vipkid、上海明志、中国国旅等。