插入关键字 文章采集器(您是否正在寻找一种方法来防止垃圾评论(组图))
优采云 发布时间: 2022-04-09 02:16插入关键字 文章采集器(您是否正在寻找一种方法来防止垃圾评论(组图))
您是否正在寻找一种方法来防止垃圾评论发送者和诈骗者使用内容抓取工具来采集您的 WordPress 博客内容?
作为 网站 所有者,看到有人在未经许可的情况下 采集 您的内容、将其货币化并在 Google 等搜索引擎上超过您的排名是非常令人沮丧的。
在本教程中,我们将介绍哪些博客内容采集,如何减少和防止内容采集,甚至如何利用内容抓取来发挥您的优势。
什么是博客内容抓取?
博客内容采集抓取是从众多来源获取并在另一个站点上重新发布的内容。通常这是通过您博客的 RSS 提要自动完成的。
内容抓取现在非常容易,任何人都可以启动 WordPress网站,放置免费或商业主题,并安装插件,从选定的博客中提取 采集 内容。
为什么内容爬虫采集是我的内容?
我们的一些用户问我们为什么采集我的内容?简单的答案是因为你很棒。事实是,这些内容抓取工具别有用心。以下是有人会采集您的内容的几个原因:
这些只是有人会采集您的内容的几个原因。
如何捕获内容爬虫?
捕获内容抓取工具是一项繁琐的任务,可能需要花费大量时间。您可以通过多种方式捕获内容爬虫。
使用您的 文章 标题进行谷歌搜索
是的,听起来很痛苦。这种方法可能不值得,特别是如果您正在撰写一个非常受欢迎的主题。
引用
如果您在 文章 中添加内部链接,如果 网站采集 您的内容,您会注意到引用。这几乎是在告诉您他们正在抓取您的内容。
如果您使用 Akismet,很多此类引用将显示在垃圾邮件文件夹中。同样,这仅在您的 文章 中有内部链接时才有效。
阿雷夫斯
如果您可以使用 Ahrefs 等 SEO 工具,则可以监控反向链接并留意被盗内容。
如何处理内容爬虫
人们使用内容采集工具的方式很少:什么都不做、删除或利用它们。
让我们来看看每一个。
无所作为的方式
这是迄今为止您可以采取的最简单的方法。通常最受欢迎的博主推荐这个,因为它需要很多时间来对抗爬虫。
现在很清楚,如果是 Smashing Magazine、CSS-Tricks、Problogger 等知名博主,那他们就不用担心了。他们是谷歌眼中的权威网站。
但是,我们确实知道一些好的 网站 被标记为 采集 工具,因为 Google 认为他们的 采集 工具是原创内容。因此,在我们看来,这种方法并不总是最好的。
采取措施
这与“什么都不做”的方法完全相反。在这种方法中,您只需联系爬虫并要求他们删除内容。
如果他们拒绝这样做或根本不响应您的请求,那么您可以向他们的主机提交 DMCA(数字千年版权法案)。
根据我们的经验,大多数爬虫网站 没有可用的联系表。如果他们这样做了,那就好好利用它。如果他们没有联系表格,那么您需要进行 Whois 查询。
您可以在管理联系人中查看联系信息。通常行政和技术联系人是相同的。
它还将显示域注册商。大多数著名的网络托管公司和域名注册商都有 DMCA 表格或电子邮件。您可以看到这个特定的人使用 HostGator 是因为他们的名称服务器。HostGator 有一份 DMCA 投诉表。
如果名称服务器相似,那么您将不得不通过反向 IP 查找和搜索 IP 进行更深入的挖掘。
您也可以使用第三方服务进行删除。
Jeff Starr 在他的 文章 中建议您应该阻止坏人的 IP。访问您的日志以获取其 IP 地址,然后在您的根 .htaccess 文件中使用以下内容阻止它:
Deny from 123.456.789
您还可以通过执行以下操作将它们重定向到虚拟提要:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
正如 Jeff 建议的那样,您可以在这里获得真正的创意。将它们发送到收录 Lorem Ipsum 的非常大的文本提要。你可以给他们发一些关于坏事的恶心图片。您还可以将它们直接发送回它们自己的服务器,从而导致无限循环使它们的 网站 崩溃。
我们采取的最后一种方法是利用它们。
如何利用内容抓取工具
这是我们的内容爬虫方法,结果非常好。它有助于我们的 SEO 以及帮助我们赚取额外收入。
大多数爬虫使用您的 RSS 提要采集您的内容。所以这些是你可以做的事情:
查看我们关于如何在 WordPress 中控制 RSS 提要页脚的指南,了解更多提示和想法。
如何减少和防止 WordPress 博客爬网
考虑一下,如果您采用我们繁重的内部链接方法,添加附属链接、RSS 横幅等,您可能会在很大程度上减少内容抓取。如果您遵循 Jeff Starr 关于重定向内容爬虫的建议,那也会阻止这些爬虫。除了我们上面分享的内容之外,您还可以使用其他一些技巧。
完整和摘要 RSS 源
博客社区一直在争论是否存在完整的 RSS 提要或摘要 RSS 提要。我们不会详细讨论该辩论,但拥有仅摘要的 RSS 提要的优点之一是可以防止内容抓取。
您可以通过转到 WordPress 管理员并转到设置»阅读来更改设置。然后更改提要中每个 文章 的设置以收录全文或摘要。