网站内容抓取工具(【培训】请求Google重新抓取您的网址(图))

优采云 发布时间: 2021-10-30 09:24

  网站内容抓取工具(【培训】请求Google重新抓取您的网址(图))

  请求 Google 重新抓取您的网址

  如果您最近向 网站 添加了新页面或对 网站 中的现有页面进行了更改,您可以使用以下任一方法请求 Google 重新索引该页面。您不能请求将非您管理的 URL 编入索引。

  您是否使用托管内容管理平台(例如 Blogger 或 WordPress)?在大多数情况下,内容管理平台会自动将您的新内容提交给搜索引擎。请查看对应平台文章的支持情况。

  一般指南

  1、 爬取时间可能从几天到几周不等。请耐心等待并通过索引状态报告或 URL 检查工具监控进度。

  2、 本文描述的所有方法的响应时间大致相同。

  3、 提交单个 URL 时有配额限制。

  4、 多次请求重新抓取同一个 URL 或站点地图不会缩短抓取时间。

  请求爬行的方法

  使用 URL 检查工具(如果 URL 数量很少)

  注意:您必须是 Search Console 资源的所有者或完全访问用户,才能在网址检查工具中请求将网址编入索引。

  您可以使用 URL 检查工具请求抓取单个 URL。请注意,如果您有大量 URL,请提交站点地图。

  向索引系统提交 URL:

  1、遵循一般准则。

  2、使用网址检查工具检查网址。

  3、选择请求索引。该工具将实时测试 URL,以检查 URL 是否存在任何明显的索引问题。如果它不存在,这个页面将被添加到索引队列中。如果工具发现页面有问题,请尝试修复这些问题。

  *请求抓取并不能保证系统会立即收录该网页进入搜索结果,甚至系统会收录该网页。我们的系统将优先考虑快速收录 高质量和有用的内容。

  提交站点地图(一次提交多个网址)

  站点地图是 Google 发现您的 网站 上的 URL 的重要渠道。站点地图还可以收录与替代语言版本、视频、图像或新闻页面相关的其他元数据。了解如何创建和提交站点地图。

  减慢 Googlebot 的抓取速度

  Google 将使用高级算法来确定最佳的 网站 抓取速度。

  我们的目标是每次访问您的 网站 时抓取尽可能多的网页,但不消耗过多的服务器带宽。

  在某些情况下,Google 抓取您的 网站 可能会给您的基础设施带来沉重的负担,或者在服务中断期间造成不必要的成本。为避免这种情况,您可以决定减少 Googlebot 发出的请求数量。

  警告:

  减慢 Googlebot 的抓取速度会产生广泛的影响,请慎重考虑。

  此举的影响包括:Googlebot 发现的新页面数量将减少,现有页面的刷新频率将降低(例如,价格和产品库存可能需要更长时间才能反映在 Google 搜索中),以及已经被移除的会保留在索引中的时间可能会更长。

  如果您决定降低 Googlebot 的抓取速度,可以使用以下方法:

  1、通过 Search Console 降低抓取速度(推荐做法)

  2、 让谷歌自动减慢抓取速度

  通过 Search Console 降低抓取速度(推荐做法)

  如果您需要快速降低抓取速度,可以在 Search Console 中更改 Googlebot 抓取速度。

  对此设置的更改通常会在几天内反映出来。要使用此设置,请验证您对 网站 的所有权。

  在设置爬取速度时,请务必避免将速度值设置得太低,否则可能无法满足您的需求网站。详细了解抓取预算对 Googlebot 的意义。

  让 Google 自动减慢抓取速度

  如果您急需在短时间内(例如几小时或 1-2 天)减慢抓取速度,则应返回收录 500、503 或 429 HTTP 结果代码(不一切)页面。

  当遇到大量收录 500、503 或 429 个 HTTP 结果代码的 URL 时(例如,如果您禁用了您的 网站),Googlebot 会减慢对您的 网站 的捕获速度。

  当 Googlebot 抓取返回这些错误的网址和整个 网站 时,会反映此更改。在这些错误的数量减少后,爬行速度会自动开始再次增加。

  警告:

  我们不建议您长时间(即超过 1-2 天)执行此操作。因为如果 Googlebot 连续几天在同一个 URL 上发现上述状态代码,该 URL 可能会从 Google 索引中删除。

  验证 Googlebot

  您可以验证访问您服务器的网络抓取工具是否确实是 Googlebot(或其他 Google 用户代理)。

  如果您担心垃圾邮件发送者或其他自称是 Googlebot 的麻烦制造者正在访问您的 网站,您会发现此方法非常有用。

  Google 不会发布公共 IP 地址列表供 网站 所有者添加到权限列表中。这是因为这些 IP 地址范围可能会发生变化,从而导致对它们进行硬编码的 网站 所有者出现问题。因此,您必须按如下所述运行 DNS 查找。

  验证抓取工具是 Googlebot

  使用命令行工具

  1、 使用host 命令对日志中访问服务器的IP 地址运行DNS 反向查找。

  2、验证域名是否还在。

  3、 使用host命令对步骤1中检索到的域名进行正向DNS查找,验证该域名是否与日志中访问服务器的原创IP地址一致。

  示例 1:

  > host 66.249.66.1

1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

  示例 2:

  > host 66.249.90.77

77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

> host rate-limited-proxy-66-249-90-77.google.com

rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

  使用自动化解决方案

  Google 不提供可识别其抓取工具的软件库。您可以使用开源库来验证 Googlebot。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线