php禁止网页抓取(【】使用robots.txt文件拦截或删除网页)

优采云发布时间: 2022-01-22 20:13

　　用户代理： *

　　不允许： /

　　允许所有机器人访问您的页面

　　用户代理： *

　　不允许：

　　（替代方案：创建一个空的“/robots.txt”文件，或者不使用 robots.txt。）

　　使用 robots.txt 文件阻止或删除网页

　　您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。例如，如果您手动创建 robots.txt 文件以防止 Googlebot 抓取特定目录（例如私有目录）中的所有网页，请使用以下 robots.txt 条目：

　　用户代理：Googlebot

　　禁止：/private

　　要防止 Googlebot 抓取特定文件类型（例如 .gif）的所有文件，请使用以下 robots.txt 条目：

　　用户代理：Googlebot

　　禁止：/*.gif$

　　想要阻止 Googlebot 抓取所有内容？（具体来说，一个以您的域名开头的 URL，后跟任意字符串，后跟问号，后跟任意字符串），您可以使用以下条目：

　　用户代理：Googlebot

　　不允许： /*？

　　尽管我们不会抓取 robots.txt 阻止的网页的内容或将其编入索引，但如果我们在网络上的其他网页上找到它们的网址，我们仍会抓取它们并将其编入索引。因此，网页 URL 和其他公开可用的信息，例如指向此网站的链接中的锚文本，可能会出现在 Google 搜索结果中。但是，您页面上的内容不会被抓取、索引和显示。

　　作为网站Admin Tools 的一部分，Google 提供了 robots.txt 分析工具。它可以像 Googlebot 读取文件一样读取 robots.txt 文件，并且可以为 Google 用户代理（例如 Googlebot）提供结果。我们强烈建议您使用它。在创建 robots.txt 文件之前，有必要考虑用户应该搜索哪些内容以及不应该搜索哪些内容。这样，通过对robots.txt的合理使用，搜索引擎可以将用户带到你的网站，同时保证隐私信息不是收录。

　　申请创业报告，分享创业好点子。点击这里一起讨论新的商机！

0

2022-01-22

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(【】使用robots.txt文件拦截或删除网页)

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(【】使用robots.txt文件拦截或删除网页)

0 个评论

发起人

相关问题