robots.txt文件有何用途?如何阻止Google抓取某个网页
优采云 发布时间: 2021-06-27 04:30robots.txt文件有何用途?如何阻止Google抓取某个网页
robots.txt 简介 什么是 robots.txt 文件?
robots.txt 文件指定了您网站 上的哪些网页或文件可以或不能被搜索引擎爬虫请求。这个文件主要是用来防止你的网站收到太多的请求;它不是阻止 Google 抓取网页的机制。如果您想阻止 Google 访问网页,您应该使用 noindex 命令或使用密码保护网页。
robots.txt 文件的用途是什么?
robots.txt 文件主要用于管理爬虫到你的网站 的流量,通常用于阻止 Google 访问文件(取决于文件类型):
文件类型流量管理未在 Google 中显示说明
网页
对于网页(包括 HTML、PDF 或其他 Google 可以读取的非媒体格式),您可以在以下情况下使用 robots.txt 文件管理抓取流量:您认为来自 Google 抓取工具的请求会导致您的服务器超载;或者,您不希望 Google 抓取您的 网站 不重要或类似的页面。
如果您不希望自己的网页出现在 Google 搜索结果中,请不要使用 robots.txt 文件隐藏网页。这是因为如果其他页面使用描述性文本指向您的页面,Google 仍然可以将其编入索引,而无需访问您的页面。如果您想从搜索结果中屏蔽您的页面,请使用其他方法(例如密码保护或 noindex 指令)。
如果您使用 robots.txt 文件阻止 Google 抓取您的网页,该网页可能仍会出现在搜索结果中,但搜索结果中不会收录该网页的说明,并且看起来与例子是相似的。此外,图像文件、视频文件、PDF 文件和其他非 HTML 文件都被排除在外。如果您看到与您的页面相对应的此类搜索结果并想要修复它,请删除阻止该页面的 robots.txt 条目。如果您想从搜索结果中完全隐藏该页面,请改用它。
媒体文件
您可以使用 robots.txt 文件来管理抓取流量并防止图片、视频和音频文件出现在 Google 搜索结果中。 (请注意,这不会阻止其他网页或用户链接到您的图片/视频/音频文件。)
资源文件
如果您认为在加载网页时跳过不重要的图片、脚本或样式文件等资源不会对网页产生太大影响,您可以使用 robots.txt 文件来屏蔽此类资源。但是,如果缺少此类资源,Google 的爬虫很难解读网页,则不应屏蔽此类资源,否则 Google 将无法很好地分析依赖此类资源的页面。
我使用了网站hosting 服务
如果您使用网站hosting 服务,例如 WIX、Drupal 或 Blogger,您可能不需要(或不能)直接修改 robots.txt 文件。您的托管服务提供商可能会显示搜索设置页面或借用其他方法来告诉您搜索引擎是否应该抓取您的页面。
要检查您的网页是否已被 Google 抓取,请在 Google 中搜索该网页的网址。
如果您想对搜索引擎隐藏/取消隐藏您的网页,您需要添加/删除任何可能存在的网页登录要求,并搜索以下说明:如何在托管服务上修改搜索引擎中的网页可见性,对于示例:Wix 对搜索引擎隐藏页面
了解 robots.txt 文件的限制
在创建或修改 robots.txt 文件之前,您应该了解这种 URL 拦截方法的局限性。有时,您可能需要考虑其他机制来确保搜索引擎无法在网络上找到您的网址。
注意:组合多个爬取和索引命令可能会导致某些命令与其他命令发生冲突。学习怎样。测试网页,验证robots.txt的拦截效果
您可以测试某个网页或资源是否已被 robots.txt 规则屏蔽。
要测试 noindex 指令的页面拦截效果,请使用 URL 检查工具。