网站内容抓取工具(Google不会发布一个公开的IP地址列表供网站所有者添加到许可名单)

优采云 发布时间: 2021-11-09 00:29

  网站内容抓取工具(Google不会发布一个公开的IP地址列表供网站所有者添加到许可名单)

  您可以验证访问您服务器的网络爬虫是否确实是 Google 爬虫,例如 Googlebot。如果您担心自称是 Googlebot 的垃圾邮件发送者或其他麻烦制造者正在访问您的 网站,您会发现此方法非常有用。 Google 不会发布公共 IP 地址列表供 网站 所有者添加到权限列表中。这是因为这些 IP 地址范围可能会发生变化,从而导致对它们进行硬编码的 网站 所有者出现问题。因此,您必须按如下所述运行 DNS 查找。

  使用命令行工具验证抓取工具是 Googlebot(或其他 Google 抓取工具)

  示例 1:

  > host 66.249.66.1

1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

  示例 2:

  > host 66.249.90.77

77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

> host rate-limited-proxy-66-249-90-77.google.com

rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

  使用自动化解决方案

  Google 不提供可识别其抓取工具的软件库。您可以使用开源库来验证 Googlebot。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线