网站内容复制(什么是内容重复?谷歌做了些什么重复内容)
优采云 发布时间: 2021-11-28 05:07网站内容复制(什么是内容重复?谷歌做了些什么重复内容)
作者:亚当·拉斯尼克
以下文章翻译自谷歌网络管理员中心官方英文博客。作者是 Adam Lasnik,谷歌搜索布道者,2006 年 12 月 18 日出版。
巧妙处理内容重复
近日,搜索引擎战略大会在寒冷的芝加哥召开。许多 Google 参与者总是被问及重复的内容。我们在这个主题上发现了许多破碎和有些混乱的理解,我们想在这里澄清一下。
什么是内容重复?
重复内容一般是指不同域名之间存在大量相同或相似的内容。在许多情况下,这不是故意的,或者至少是无辜的。例如,有些论坛会生成专门为手机屏幕显示设计的页面;商店商品显示(有时甚至链接到)各种不同的 URL,等等。但有时,某些网站 会从其他网站 复制内容,以操纵搜索引擎排名并获得更多热门或长尾查询流量。
什么不是重复内容?
虽然谷歌网站具有方便易用的翻译功能,但我们的算法不会将内容相同的英文版和*敏*感*词*文版视为内容的副本。同样,您不必担心我们会将您对其他 文章 片段的 文章 引用视为重复内容。
为什么 Google 关心重复的内容?
谷歌用户在使用谷歌时通常希望看到各种原创内容。如果他们发现一堆内容相同的搜索结果,可想而知有多烦人。此外,网站 管理员不希望看到 Google 给出一个像 /contentredir?value=shorty-george<=en 这样复杂的 URL。他们倾向于喜欢像 /en/shorty-george.htm 这样的 URL。
谷歌做了什么?
在抓取网页和获取搜索结果时,Google 总是尝试索引和显示具有不同内容的网页。这个过滤的意思是,比如你的网站有普通版和印刷版文章,而你没有在robots.txt中设置noindex标签,谷歌只会选择一个版本显示给谷歌用户。针对少数企图利用复制内容操纵排名、欺骗谷歌用户的案例,我们将对相关页面的索引和排名进行适当调整。当然,我们更喜欢关注过滤而不是排名调整。因此,在大多数情况下,最坏的结果是 原创 人们看到他们不想看到的版本出现在我们的索引中。
网站管理员如何主动处理内容复制问题?
* 正确阻止搜索引擎访问:与其让我们的算法确定文件的“最佳”版本,不如让 Google 选择您喜欢的版本。例如,如果您不希望我们为您的印刷版 网站文章 编入索引,您可以在您的 robots.txt 文件中写入目录名称或正则表达式,以禁止 Google 捕获这些印刷版. 挑选。
*使用301重定向:如果你重构了你的网站,请在你原来的网站.htaccess中使用301重定向(永久重定向)来重定向你的用户、谷歌爬虫和其他搜索引擎蜘蛛等。
* 链接要一致:尽量使你的内部链接一致,不要同时有/page/、/page 和/page/index.htm 的内部链接。
*使用顶级域名:为了让我们始终使用最合适的文件版本,请尽可能使用特定国家/地区的顶级域名。与 /de or 等 URL 相比,Google 肯定更清楚 example.de 是基于德语的。
*小心联合提交:如果您为其他网站提供您的内容,请在彼此网站的文章中收录返回原创文章的链接关联。注意:即便如此,对于一个查询,谷歌总是显示我们认为最合适的版本(不被网站禁止),这可能是也可能不是你想要的版本。
*使用谷歌网站管理员工具的首选域功能:如果其他网站链接你的网址同时是www版和非www版,你可以使用谷歌网站管理员工具让我们知道您想要哪种索引方法。
*减少模板网页的重复内容:以版权声明为例,你有两种选择,一种是在每页底部有一个冗长的版权声明;另一种是设立一个专门的版权声明页面,然后在每个页面的底部写一个非常简短的摘要并链接到版权声明页面。
*避免发布没有内容的页面:用户不喜欢看到没有实际内容的页面,所以尽量避免空页面。以房地产网页为例。不要发布(或至少屏蔽)没有评论的评论网页,或没有房地产列表的房地产列表网站 等。只有这样,网站 用户(和谷歌爬虫)不会看到无数的“以下是不能错过的[城市名称]的出租房屋清单......”但网页上根本没有清单。
*了解您的内容管理系统:确保您熟悉 网站 显示内容的方式,尤其是当它收录博客、论坛或相关系统时。通常,相同的内容会以多种形式出现在这些系统中。
*别担心,保持快乐:不要被搜索(适当和重新发布)您的内容的网站过度打扰。尽管很烦人,但它们几乎不可能对您在 Google 中的存在产生负面影响。如果实在受不了,欢迎您申请千禧年版权法声明您的内容的所有权,我们会处理那些无赖网站。
简而言之,如果您对内容复制问题有一个大致的了解,并且可以花几分钟对您的 网站 进行有见地的预防性维护,这将有助于您以及帮助我们为用户提供独特且相关的内容。
注:本文来自【香哥的博客】,转载请保留版权信息原创,如果不是原创文章请保留原作者信息及出处,谢谢!