邢台搜索引擎优化(如何阻止搜索引擎索引这个网站?蜘蛛如何抓取你的站点)
优采云 发布时间: 2022-03-28 19:15邢台搜索引擎优化(如何阻止搜索引擎索引这个网站?蜘蛛如何抓取你的站点)
如果您浏览过 WordPress 管理员,您可能已经注意到“阻止搜索引擎索引此 网站”的设置,您想知道这意味着什么。或者,您正在寻找一种方法来向不受欢迎的访问者隐藏您的 网站,并想知道这个小复选框是否足以保证您的内容安全和私密。
这个选项是什么意思?它对你的 网站 有什么影响?为什么你应该避免依赖它——即使你试图隐藏你的内容?
以下是删除 网站 索引并阻止访问某些页面的答案和其他一些方法。
“不鼓励搜索引擎索引此 网站”是什么意思?
您有没有想过搜索引擎如何索引您的 网站 并衡量您的 SEO?他们使用称为蜘蛛的自动化程序来做到这一点,也称为机器人或爬虫。蜘蛛“爬行”网络,访问 网站 并记录您的所有内容。
Google 使用它们来决定如何在搜索结果中对您的 网站 进行排名和放置,从您的 文章 *敏*感*词*到搜索结果页面,以及将您的图片拉到 Google 图片中。
当您选中“阻止搜索引擎索引此站点”时,WordPress 会修改您的 robots.txt 文件(该文件告诉蜘蛛如何抓取您的站点)。它还可以在 网站 的标题中添加元标记,告诉 Google 和其他搜索引擎不要索引整个 网站 上的任何内容。
这里的 关键词 是“令人沮丧的”:搜索引擎没有义务遵守此要求,尤其是那些不使用 Google 使用的标准 robots.txt 语法的搜索引擎。
网络爬虫仍然能够找到您的网站,但正确配置的爬虫将读取您的 robots.txt 并离开,而不会将内容编入索引或在搜索结果中显示。
过去,WordPress 中的此选项不会阻止 Google 在搜索结果中显示您的 网站,只是通过索引其内容。您仍然可以在搜索结果中看到您的页面出现错误,例如:“此页面没有可用信息”或“由于 网站 的 robots.txt,此结果的描述不可用”。
虽然 Google 不会索引页面,但它们也不会完全隐藏页面。这种异常导致人们能够访问他们不应该看到的页面。感谢 WordPress 5.3,它现在可以工作,阻止索引和站点列表。
您可以想象如果您不小心启用了它,这将如何破坏您的 SEO。仅当您真的不希望其他人看到您的内容时才使用此选项 - 即使这样,它也可能不是您想要采取的唯一行动。
为什么你可能不想索引你的 网站
网站 是为人们看到的。您希望用户阅读您的 文章、购买您的产品、消费您的内容——为什么要故意屏蔽搜索引擎?
有几个原因可能会导致您想要隐藏部分或全部 网站。
对于其中一些问题,有更好的解决方案 - 使用合适的离线开发服务器,将 文章 设为私有,或将它们隐藏在密码后面 - 但您可能希望删除部分或全部站点的索引正当理由。
如何检查您的 网站 是否阻止搜索引擎
虽然您可能有正当理由删除您的网站,但您会惊恐地发现您无意中或意外打开了此设置。如果您的流量为零,并且怀疑您的 网站 没有被索引,请按以下步骤确认。
一个简单的方法是检查位于管理仪表板主屏幕上的概览框。只需登录您的后端并选中该框。如果您看到“搜索引擎受挫”,则说明您已激活此设置。
更可靠的方法是查看 robots.txt。您可以在浏览器中轻松验证这一点,甚至无需登录您的网站。
要检查 robots.txt,您只需将 /robots.txt 添加到 网站 URL 的末尾。
如果您看到 Disallow: / 则您的整个 网站 将被禁止编入索引。
如果您看到 Disallow: 后跟 URL 路径,例如 Disallow: /wp-admin/,则表示任何具有 /wp-admin/ 路径的 URL 都被阻止。这种结构适用于某些页面,但如果它阻止了 /blog/,其中收录您要索引的页面,则可能会导致问题!
现在 WordPress 使用元标记而不是 robots.txt 来索引您的网站,您还应该检查您的标题是否有更改。
登录后端并转到外观 > 主题编辑器。找到 Theme Header (Header .php) 并查找以下代码:
您还可以检查 functions.php 中的 noindex 标记,因为该文件可用于远程将代码插入头文件。
如果您在主题文件中找到此代码,则表明您的网站没有被 Google 索引。但不要手动删除它,而是先尝试关闭原创设置。
如何在 WordPress 中阻止搜索引擎索引
如果您想跳过额外的步骤并直接进行初始设置,以下是如何激活或停用 WordPress 中的“阻止搜索引擎”选项。
登录到您的 WordPress 仪表板并导航到设置 > 阅读。在标有“阻止搜索引擎索引此站点”的“搜索引擎可见性选项”中添加一个复选框。
如果您发现此选项已打开并希望将您的网站编入索引,请取消选中它。如果您想阻止您的 网站 被索引,请检查一下(并在某处记下以提醒您稍后关闭它!)
现在单击保存更改开始。您的 网站 可能需要一段时间才能被 Reindeer 索引或从搜索结果中拉出。
如果您的网站仍未编入索引,您还可以从头文件中删除 noindex 代码,或手动编辑 robots.txt 以删除“禁止”标志。
使用不鼓励的搜索引擎选项的缺点
看起来很简单 - 勾选一个框,没有人可以看到您的 网站。这还不够好吗?为什么要避免单独使用这个选项?
当您打开此设置或任何类似选项时,它所做的只是将标签添加到您的标题或 robots.txt。旧版本的 WordPress 仍然允许您的 网站 出现在搜索结果中,并且故障或其他错误可能导致人们看到您所谓的隐藏页面。
此外,不抓取您的 网站 完全取决于搜索引擎的要求。Google 和 Bing 等主要搜索引擎通常会这样做,但并非所有搜索引擎都使用相同的 robots.txt 语法,而且并非所有爬网的蜘蛛都是由搜索引擎发送的。
您可能会认为,仅仅因为您全新的 网站 没有链接,它就不会受到蜘蛛的攻击,但事实并非如此。存在于共享服务器上、发送带有 网站 链接的电子邮件,或者甚至在浏览器(尤其是 Chrome)中访问您的 网站 都可能会打开您的 网站 被抓取。
如果您想隐藏内容,添加参数并希望它能解决问题不是一个好主意。
让我们明确一点,如果您要删除的内容是敏感的或个人的,您永远不应该依赖 robots.txt 或元标记来隐藏它。
最后但并非最不重要的一点是,此选项将从搜索引擎中完全隐藏您的 网站,而且很多时候,您只想删除某些页面。
防止搜索引擎索引的其他方法
虽然 WordPress 提供的选项通常可以发挥作用,但在某些情况下,使用其他方法隐藏内容通常会更好。甚至谷歌自己也说不要使用 robots.txt 来隐藏页面。
只要您的 网站 有域名并且位于面向公众的服务器上,您就无法保证您的内容不会被爬虫看到或索引,除非您将其删除或使用密码或登录要求。
也就是说,有什么更好的方法来隐藏您的 网站 或某些页面?
使用 .htaccess 阻止搜索引擎
虽然它的实现在功能上与简单地使用“阻止搜索引擎”选项相同,但您可能希望手动使用 .htaccess 来阻止对 网站 的索引。
您需要使用 FTP/SFTP 程序来访问您的 网站 并打开 .htaccess 文件,通常位于根文件夹(打开 网站 时看到的第一个文件夹)或 public_html。将以下代码添加到文件中并保存:
Header set X-Robots-Tag "noindex, nofollow"
注意:此方法仅适用于 Apache 服务器。对于 NGINX 服务器,您需要将此代码添加到 .conf 文件中,该文件可以在 /etc/nginx/ 中找到(您可以在此处找到元标记实现的示例):
add_header X-Robots-Tag "noindex, nofollow";
使用 Google Search Console 暂时隐藏 网站
Google Search Console 是一项服务,可让您声明对 网站 的所有权。这会阻止 Google 暂时将某些页面编入索引。
这种方法有几个问题:它是谷歌专有的(所以像 Bing 这样的 网站 不会受到影响),而且只能持续 6 个月。
但是,如果您想要一种快速、简单的方法来暂时将您的内容从 Google 搜索结果中删除,那么这就是您要走的路。
如果您还没有,则需要将您的网站添加到 Google Search Console。完成后,打开 Removals 并选择 Temporary Removals > New Request。然后单击“仅删除此 URL”并链接您要隐藏的页面。
这是一种更可靠的阻止内容的方法,但同样,它仅在 Google 上可用,并且仅持续 6 个月。
总结
隐藏 网站 上的内容有很多原因,但依靠“阻止搜索引擎索引此 网站”选项并不是确保不看到此内容的最佳方法,除非您想隐藏您的整个 网站 来自网络。
即使你想隐藏你的 网站,这个默认选项也是一个不可靠的方法。它应该与密码保护或其他阻止相结合,尤其是在您处理敏感内容时。