解读:如何应对WordPress内容采集问题（反击还是忽略？）

优采云发布时间: 2022-10-03 10:17

　　内容采集，或者我们喜欢称之为“内容盗窃”，自互联网诞生以来就一直是个问题。对于任何定期发布或使用搜索引擎优化 (SEO) 的人来说，这实际上可能很烦人。

　　什么是内容采集？

　　内容采集基本上意味着有人获取您的内容并自行使用它网站（手动或自动使用插件或机器人），而不给您署名或信用。这通常是希望以某种方式获得流量、SEO 或新用户。这实际上违反了美国和其他一些国家的版权法。谷歌也不宽恕这一点，并建议您应该创建自己的独特内容。

　　以下是 Google 提到的采集内容的几个示例：

　　不要将此与内容联合混淆，这通常是在您重新发布自己的内容以扩大覆盖面时。内容的联合也可以由第三方完成，但这与内容抓取之间存在细微差别。如果有人在联合内容，他们应该始终使用特殊标签，例如 rel=canonical 或 noindex。

　　现在有许多第三方 WordPress 插件可让您自动抓取第三方 RSS 提要。虽然开发人员的意图是好的，但不幸的是，这些意图有时会被滥用并用于内容采集。WordPress 如此受欢迎的原因之一是它易于使用，但有时也会适得其反。

　　内容采集农场示例

　　当同一个所有者在几十个网站上抓取内容时，我们称它们为“农场”。这些通常很容易发现，因为 WordPress网站所有者通常在所有网站上使用相同的主题，甚至域名之间的差异也很小。

　　我们在今天的帖子中使用了一个活生生的例子！我们并不羞于指出这些类型的网站，因为它们没有提供任何价值，只会否定内容发布者所做的辛勤工作。这是内容抓取农场的示例。我们存档每个链接以防网站未来失败。您可以单击它们中的每一个，并查看它们都使用相同的主题和相同的抓取内容。通常刮板从许多不同的来源获取内容，我们的博客就是其中之一。

　　正如你在下面看到的，他们只是逐字逐句地采集blog文章。

　　采集示例

　　如何找到它们？

　　找到它们的最简单方法之一是使用 Copyscape（不支持中文）或 Ahrefs（如果它们也在复制您的内部链接）之类的工具。Copyscape 甚至允许您提交站点地图文件，并在它扫描网络并找到内容时自动通知您。

　　文案

　　您还可以使用“allintitle”标签手动搜索 Google。只需输入标签以及您的文章标题。

　　使用 allintitle 标签搜索 Google

　　allintitle 关键字提示 Google 仅在文章标题中搜索这些术语。第二种也是更有效的方法是在您的帖子中搜索一些文本，搜索词用双引号括起来。添加双引号会告诉 Google 搜索完全相同的文本。您的标题搜索可能会出现误报，因为有人可能使用相同的标题，但第二种方法更有效，因为有人不太可能拥有完全相同的句子或段落。

　　内容采集会影响 SEO 吗？

　　您可能遇到的下一个问题是，这对 SEO 有何影响？因为在上面的示例中，内容采集farm 没有使用 rel=canonical 标签、给予信用或 noindex 标签。这意味着当 Google bot 抓取它时，它认为这是他们的原创内容。你可能认为这是不公平的。你是对的，它不是。我们发布内容，然后他们只是抓取它。然而，在你开始恐慌之前，了解幕后真正发生的事情很重要。

　　首先，即使谷歌爬虫可能将其视为他们的内容，谷歌算法很可能不会。谷歌并不傻，有很多规则和检查来确保原创内容所有者仍然获得信用。我们怎么知道？好吧，让我们从 SEO 的角度来看看这些帖子中的每一个。

　　在这个例子中这个网站采集早在2017年11月就发布了别人的博客文章，所以它有足够的时间来排名如果它想排名。因此，启动 Ahrefs 工具并检查他们的文章当前排名关键字。我们可以看到它没有为任何关键字排名。所以就自然流量而言，他们根本没有从这个文章中受益。

　　内容采集SEO

　　如果我们在 Ahrefs 中提取我们的原创博客文章，我们可以看到我们对 96 个关键字进行了排名。

　　原创内容搜索引擎优化

　　当 Google 看到您可能认为重复的内容时，它会使用许多不同的信号和数据点来确定谁首先编写了内容以及它应该排名什么。这里有一些例子：

　　同样，这些都是安全的假设，因为没有人真正知道 Google 使用什么。但这里的重点是，您可能不需要因为有人抓取您的内容而失眠。但是，您仍然可能想对此做点什么。其他人用自己的内容智取你也不是不可能的。我们将在下面进一步讨论。

　　我们如何处理内容采集

　　创建有用的、独特的和可共享的内容并不容易，它会占用你很多宝贵的时间（而且通常会花费很多钱），所以你绝对应该保护它。但是这里有一些您可能不想忽略刮板的其他原因。

　　如果一个拥有大量流量的网站正在抓取您的内容并使用它来补充其他内容，他们很可能会从中受益。这是绝对错误的，因为您是内容的原创所有者。像这样的事情会严重扭曲报告工具中的数据，让您的生活更加艰难。例如，这些将显示在 Ahrefs 或 Majestic 等工具的反向链接报告中。你越大，就越混乱。您想完全信任 Google 来确定他们的内容还是您的内容是原创的？尽管他们很聪明，但我们当然不是。此外，即使他们的帖子没有任何关键字的搜索引擎排名，它实际上已被 Google 索引（如下所示）。

　　采集的内容已编入索引

　　经验:数据采集技术包括哪几方面优缺点分别是什么

　　1、通过各软件厂商开放的数据接口，实现不同软件数据的互联互通。这是目前最常见的数据连接方式。

　　2、优点：接口连接方式的数据可靠性和价值高，一般不会出现数据重复；可以通过接口实时传输数据，满足数据的实时应用需求。

　　3、缺点：①接口开发成本高；②需要与多家软件厂商协调，工作量大，容易打不完；③可扩展性不高，如：由于新业务需要各个软件系统开发新业务模块与大数据平台之间的数据接口也需要做相应的修改和变化，甚至之前所有的数据接口代码必须被推翻，这需要大量的工作并且需要很长时间。

　　4、软件机器人是目前比较前沿的软件数据对接技术，不仅可以采集客户端软件数据，还可以采集网站网站软件数据。

　　5、常见的是博威小邦软件机器人，产品设计原则是“所见即所得”，即无需软件厂商合作，采集软件界面上的数据，输出结果是结构化的数据库或excel表格。

　　6、如果只需要界面上的业务数据，或者软件厂商不配合/崩盘，数据库分析困难，最好使用软件机器人的数据采集@ >，尤其是详情页的数据采集功能更有特色。

　　7、技术特点如下： ①无需与原软件厂商合作；②兼容性强，可以采集聚合Windows平台各种软件系统的数据；③输出结构化数据；简短、简单、高效；⑤配置简单，无需编程，人人都可以DIY一个软件机器人；⑥价格远低于人工和接口。

　　8、缺点：采集软件数据的实时性有限。

　　9、网络爬虫是一种程序或脚本，根据一定的规则自动爬取万维网上的信息，模拟客户端发出网络请求并接收请求响应。

　　10、爬虫采集数据的缺点：①输出数据多为非结构化数据；②只能是采集网站数据，容易受网站反爬机制影响；③ 用户群窄，需要专业的编程知识才能玩。

　　11、数据整合，开放数据库是最直接的方式。

　　12、优点：开放数据库方式可以直接从目标数据库中获取需要的数据，准确率高，实时性有保证。这是最直接、最方便的方法。

　　13、缺点：开放数据库方式还需要协调各个软件厂商的数据库开放，这取决于对方的意愿。一般出于安全原因，不会打开；如果一个平台同时连接多个软件厂商的数据库，并且实时获取数据，对平台性能也是一个巨大的挑战。

0

2022-10-03

采集文章免费

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解读:如何应对WordPress内容采集问题（反击还是忽略？）

0 个评论

发起人

AI时代内容工厂

解读:如何应对WordPress内容采集问题（反击还是忽略？）

0 个评论

发起人

相关问题