php禁止网页抓取(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)

优采云发布时间: 2022-04-09 18:46

　　搜索引擎用来抓取网页内容的工具称为搜索引擎蜘蛛。如果您想阻止蜘蛛从搜索引擎服务器抓取某个页面，您可以通过 robots.txt 文件限制蜘蛛抓取。很多朋友希望屏蔽网站后台禁止搜索引擎蜘蛛抓取，不希望其他用户知道网站后台地址。这可以通过 robots.txt 文件进行限制吗？

　　首先，我们来分析下robots.txt文件的作用和使用方法。在搜索引擎蜘蛛来到站点抓取网页内容之前，它会首先访问网站根目录下的 robots.txt 文件。如果该文件不存在，则搜索引擎蜘蛛默认使用此网站以允许它全部抓取。robots.txt是一个简单的纯文本文件（记事本文件），搜索引擎蜘蛛通过robots.txt中的内容判断网站是否可以全部或部分抓取。

　　如果您希望网站搜索引擎蜘蛛抓取所有页面而不阻止任何页面，您可以不上传 robots.txt 文件或上传一个空的 robots.txt 文件。（目前大部分内容管理系统源程序都带有一个空的 robots.txt 文件）

　　robots.txt 文件的标准格式如下：

　　用户代理： *

　　禁止：/secret.html

　　禁止：/index.php？

　　禁止：/qiyecao/

　　如果要阻止页面 seacert.html 抓取，只需将 Disallow 添加到 robots.txt 文件中：

　　/secret.html 这行代码（这个网页是相对于网站的根目录的URL，如果不在根目录下，请加上/xxxx/secret.html父目录文件夹的名字）。

　　如果你想让一个文件夹根本不被爬取，你可以通过 Disallow：

　　实现了/qiyecao/ 语法，但搜索引擎蜘蛛仍然可以爬取/qiyecao.html 页面。

　　注意：如果某个页面已经被搜索引擎抓取，您修改 robots.txt 文件将其屏蔽，则可能需要 1 到 2 个月的时间才能被搜索引擎删除。不过如果想加快删除速度，可以通过google网站admin工具删除。如果你的网站首页是index.asp，最好不要禁止爬取index.html或index.php等页面，以防爬取错误。

　　最后解释一下本文开头提出的问题：屏蔽网站后台禁止搜索引擎蜘蛛抓取，不希望其他用户知道网站后台地址。这可以通过 robots.txt 文件进行限制吗？其实这并不能被robots.txt文件限制，因为robots.txt是放在网站根目录下的文本文档，任何人都可以访问。在不让其他访问者知道的情况下阻止搜索引擎蜘蛛爬取网站背景的方法是将 noindex 标签添加到网站背景登陆页面。

0

2022-04-09

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)

0 个评论

发起人

相关问题