php禁止网页抓取(【】使用robots.txt文件拦截或删除网页)

优采云 发布时间: 2022-01-22 20:13

  php禁止网页抓取(【】使用robots.txt文件拦截或删除网页)

  用户代理: *

  不允许: /

  允许所有机器人访问您的页面

  用户代理: *

  不允许:

  (替代方案:创建一个空的“/robots.txt”文件,或者不使用 robots.txt。)

  使用 robots.txt 文件阻止或删除网页

  您可以使用 robots.txt 文件来阻止 Googlebot 抓取您 网站 上的网页。例如,如果您手动创建 robots.txt 文件以防止 Googlebot 抓取特定目录(例如私有目录)中的所有网页,请使用以下 robots.txt 条目:

  用户代理:Googlebot

  禁止:/private

  要防止 Googlebot 抓取特定文件类型(例如 .gif)的所有文件,请使用以下 robots.txt 条目:

  用户代理:Googlebot

  禁止:/*.gif$

  想要阻止 Googlebot 抓取所有内容?(具体来说,一个以您的域名开头的 URL,后跟任意字符串,后跟问号,后跟任意字符串),您可以使用以下条目:

  用户代理:Googlebot

  不允许: /*?

  尽管我们不会抓取 robots.txt 阻止的网页的内容或将其编入索引,但如果我们在网络上的其他网页上找到它们的网址,我们仍会抓取它们并将其编入索引。因此,网页 URL 和其他公开可用的信息,例如指向此 网站 的链接中的锚文本,可能会出现在 Google 搜索结果中。但是,您页面上的内容不会被抓取、索引和显示。

  作为 网站Admin Tools 的一部分,Google 提供了 robots.txt 分析工具。它可以像 Googlebot 读取文件一样读取 robots.txt 文件,并且可以为 Google 用户代理(例如 Googlebot)提供结果。我们强烈建议您使用它。在创建 robots.txt 文件之前,有必要考虑用户应该搜索哪些内容以及不应该搜索哪些内容。这样,通过对robots.txt的合理使用,搜索引擎可以将用户带到你的网站,同时保证隐私信息不是收录。

  申请创业报告,分享创业好点子。点击这里一起讨论新的商机!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线