网站内容复制(曾庆平SEO前面讨论的网址规范化问题会产生复制内容吗)
优采云 发布时间: 2022-03-20 21:02网站内容复制(曾庆平SEO前面讨论的网址规范化问题会产生复制内容吗)
重复内容也可以称为重复内容。重复内容是指两个或多个 URL 具有相同的内容,或者非常相似。重复可能发生在同一个 网站 或不同的 网站 内。
1、复制内容的原因
以下原因可能会导致内容重复。曾庆平 SEO 之前讨论过 URL 规范化的问题,这会产生重复的内容。
分销商和零售商从产品制造商那里复制产品信息。这并没有错,一般厂家都同意不存在版权问题。但是,大多数代理商、零售商和批发商直接复制而不做任何更改。每个人都使用相同的产品描述,所以这些电子商务网站充满了大量的复制内容。
印刷版。许多网站除了提供正常浏览页面之外,还提供了更易于打印的页面版本,如果未正确禁用抓取,这些打印版本的页面可能会变成重复页面。
网站由于结构不同,页面版本不同。比如商品列表按价格、评论、上架时间等排序,博客的分类存档、时间存档等。
Web 内容由 RSS 生成。有很多 网站,尤其是新闻 网站,它们使用其他 网站 RSS 提要在原创源中生成 网站 内容以及许多其他类似的 网站上面已经出现过很多次了。
使用会话 ID。当搜索引擎蜘蛛在不同时间访问网页时,它们被赋予不同的会话ID,但网页的内容实际上是相同的。因为 Session 1D 参数不同,所以被认为是不同的网页。
页面内容太少。每个网页都难免有一些共同的部分,比如:导航栏、版权声明、广告等。如果页面正文部分太短,内容量与一般部分不符,可能会被认为是重复的内容页面。
转载和抄袭。有时别人抄袭你的网站内容,有时是善意转载,有时作者本人在不同的网站上发表文章,都会造成内容抄袭。
镜像 网站。镜像 网站 曾经很流行,当一个 网站 太忙太慢时,用户可以通过备用镜像查看或下载内容,这也存在复制内容的风险。
产品或服务类型之间的区别相对较小。例如,有的网站按地区对自己的服务进行分类,但实际上提供给每个地区的产品或服务是相同的。这些按地区分类的页面只是改变了地名,其他服务的描述都是一样的。向 URL 添加任何字符仍会返回 200 状态代码。一些网站由于技术原因,如果用户在URL后面添加任何字符或参数,服务器仍然可以正常返回200状态码,并且返回相同的重复内容页面而不添加任何字符。
检查页面是否有重复版本相对简单。在页面正文中取出一个句子,加上双引号,在搜索引擎中搜索,从结果中可以看到是否有多个页面收录这句话。一般来说,一个随机选择的句子在另一个不相关的 文章 中完整出现的概率非常低。
2、复制内容的危害
很多SEO对抄袭内容有一个误区,认为如果网站上有抄袭内容,搜索引擎就会处罚。事实上,搜索引擎不会因为 网站 有少量复制内容而惩罚或减少权利。搜索引擎所做的就是尝试从多个页面中选择真正的原创版本给出应有的排名,而其他复制的版本在搜索结果中不返回或排名较低。
但是,由于交给搜索引擎去判断,有可能判断错误,把原本是原创的页面当成转载或抄袭,所以排名不好。这似乎是对 原创 页面的惩罚,但不是复制内容本身,而是因为搜索引擎判断 原创 失败。
同一站点上的重复内容似乎没有那么严重。不管搜索引擎判断是哪个版本的原创,都是自己的页面网站。问题是搜索引擎考虑的最合适的URL可能与SEO站长自己考虑的最合适的URL不同。SEO站长在优化和链接的时候关注的是A页,但是搜索引擎认为B页是最好的。(A和B内容相同),SEO站长在A页面上花费的精力就被浪费了。
同一 网站 中的重复项将被加权。由于页面出现在 网站 上,因此必须有指向这些页面的链接。如果一段独特的内容只出现在一个 URL 上,网站 上的链接可以专注于该 URL,从而提高其排名能力。链接分散在多个 URL 中,这会使每个 URL 的排名能力不那么突出。外部链接也是如此,它们很可能分散到不同的 URL。
在同一个站点上复制也会导致收录太多无意义的页面,在域名权限不高的情况下可能会挤掉其他独特内容的收录机会。如果网站上有大量复制内容,可能会导致搜索引擎怀疑网站的质量,从而导致处罚。
3、删除重复内容
由于 URL 规范化问题导致的重复内容,如前所述。最好的解决办法是保证一篇文章文章只对应一个URL,不出现多个版本。网站 所有内部链接都链接到此 URL。有时需要 301 重定向。
最好的解决办法是选择一个版本允许收录,其他版本禁止搜索引擎爬取或收录。
可以使用 robots 文件或使用 noindex 元机器人标签编制索引来禁用抓取。使用 nofollow 标签、JavaScript 等来防止蜘蛛抓取链接以复制您不想要的内容 收录。
复制内容的另一种解决方案是使用规范标签。规范标签既可用于复制由 URL 规范化引起的内容,也可用于其他情况。
比如网站上同款的鞋子,可能会分成不同的款式,而款式之间的唯一区别就是颜色。这些模型生成多个 URL,产品描述几乎相同,除了描述颜色的地方。
此时,可以使用规范标签,用户不会被重定向,也不会看到不同的页面,但搜索引擎会将权重集中在其中一个模型上,以避免重复内容。
带有 Session ID 的页面也可以使用规范标签,例如 page: 放代码:
这样,无论后面生成什么Session ID:
上述 URL 将被搜索引擎加权为:
在不同的网站s之间复制内容解决起来比较麻烦,因为其他网站s上的内容是无法控制的。能做的只有两件事。首先是在页面上添加版权声明,要求转载的网站保留版权声明和原创出处的链接。
部分聚合网站会爬取feed自动生成内容,所以feed中也要加上版权声明和链接。
一般来说,原创版本的外链会比转载多。即使在中国互联网不太重视版权的环境下,依然会有部分站长在转载时保留原出处链接。对于搜索引擎来说,指向原创来源的链接是判断原创的最重要信号。
还有一点是坚持原创。随着时间的推移,网站 的权重会增加,这会增加网站 上的内容被判断为原创 的机会。如果网站抄袭较多,原创的内容无法排名,也可以考虑联系对方,要求添加版权链接或删除抄袭内容,或投诉对方的主机或域名提供商,并向搜索引擎提交投诉。发动机投诉等