php禁止网页抓取(培训怎样建立robots.txt文件并阻止搜索引擎搜索引擎蜘蛛访问网站)

优采云发布时间: 2022-03-24 05:16

　　搜索引擎智能机器人继续爬行网站，方便将它们添加到搜索引擎数据库索引中。但是，有时开发人员希望在搜索引擎结果中隐藏他们的网站或特殊网页，在这种情况下，robots.txt 可用于阻止搜索引擎蜘蛛访问网站。在本示例教程中，您将学习如何创建 robots.txt 文件并防止搜索引擎蜘蛛访问或抓取网站。

　　流程 1 - 访问 Web 服务器并创建一个新文件

　　首先，创建robots.txt文件，可以通过FTP手机客户端或者宝塔面板提交到网站根目录。

　　第 2 步 - 编写 robots.txt

　　每个搜索引擎往往都有自己的爬取专用工具（user-agen），在robots.txt中可以指定专用爬取工具User-agent。互联网技术有数百个网络爬虫，但最常见的是：

　　谷歌机器人

　　雅虎！啜饮

　　bingbot

　　AhrefsBot

　　百度蜘蛛

　　放大

　　MJ12bot

　　YandexBot

　　例如，如果要防止百度搜索和爬虫专用工具访问可靠的网站，可以使用以下标准编写robots.txt：

　　用户代理：百度蜘蛛

　　不允许：/

　　如果要阻止所有搜索引擎抓取特殊工具，可以使用*作为通配符：

　　用户代理：*

　　不允许：/

　　如果您想阻止搜索引擎爬虫仅访问特定文件或文件夹，请使用类似英语的语法，但是，您必须指定文件或文件夹的名称。假设想要阻止搜索引擎抓取私有工具，仅访问文章contents 文件夹（文章）和 private.php 文件。在这种情况下，robots.txt 文件的内容应如下所示：

　　用户代理：*

　　禁止：/articles/

　　禁止：/private.php

　　编写完 robots.txt 文件后，保存更改并提交到网站的根目录。您可以在浏览器搜索栏输入网站domain/robots.txt进行查询。

　　热搜词

0

2022-03-24

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(培训怎样建立robots.txt文件并阻止搜索引擎搜索引擎蜘蛛访问网站)

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(培训怎样建立robots.txt文件并阻止搜索引擎搜索引擎蜘蛛访问网站)

0 个评论

发起人

相关问题