php禁止网页抓取(关于robots.txt文件:搜索引擎通过一种程序.conf)
优采云 发布时间: 2021-10-04 01:11php禁止网页抓取(关于robots.txt文件:搜索引擎通过一种程序.conf)
关于robots.txt文件:搜索引擎自动访问互联网上的网页,并通过程序robot(也称为spider)获取网页信息。您可以在网站中创建一个纯文本文件robots.txt,并在此文件中声明网站中您不希望机器人访问的部分。这样,搜索引擎收录无法访问网站的部分或全部内容,或指定搜索引擎仅指定收录指定的内容
您可以从我们的访问中了解到网站中有/Admin和/BBS,其中/Admin是关于后台管理的目录。显然,公开这条路径并不容易。接下来,我们可以通过禁止访问来提高网站的安全性。Txt文件
修改nginx.conf文件VIM/usr/local/nginx/conf/nginx.conf
location ~* \.(txt|doc)$ { root /usr/local/nginx/html; deny all; }
指定403.HTML文件的配置信息
error_page 403 /403.html; location = /403.html { root html; }
重新加载配置文件
再次访问时,系统会提示您无法访问该文件
这种方法可以在一定程度上保护网站安全,防止黑客通过访问robots.txt来猜测我们的网站目录结构或真实的目录和文件
当然,您也可以禁止其他指定类型的文件,例如。文件,。XSL等,以同样的方式