php禁止网页抓取(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)
优采云 发布时间: 2022-04-09 18:46php禁止网页抓取(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)
搜索引擎用来抓取网页内容的工具称为搜索引擎蜘蛛。如果您想阻止蜘蛛从搜索引擎服务器抓取某个页面,您可以通过 robots.txt 文件限制蜘蛛抓取。很多朋友希望屏蔽网站后台禁止搜索引擎蜘蛛抓取,不希望其他用户知道网站后台地址。这可以通过 robots.txt 文件进行限制吗?
首先,我们来分析下robots.txt文件的作用和使用方法。在搜索引擎蜘蛛来到站点抓取网页内容之前,它会首先访问 网站 根目录下的 robots.txt 文件。如果该文件不存在,则搜索引擎蜘蛛默认使用此 网站 以允许它全部抓取。robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎蜘蛛通过robots.txt中的内容判断网站是否可以全部或部分抓取。
如果您希望网站搜索引擎蜘蛛抓取所有页面而不阻止任何页面,您可以不上传 robots.txt 文件或上传一个空的 robots.txt 文件。(目前大部分内容管理系统源程序都带有一个空的 robots.txt 文件)
robots.txt 文件的标准格式如下:
用户代理: *
禁止:/secret.html
禁止:/index.php?
禁止:/qiyecao/
如果要阻止页面 seacert.html 抓取,只需将 Disallow 添加到 robots.txt 文件中:
/secret.html 这行代码(这个网页是相对于网站的根目录的URL,如果不在根目录下,请加上/xxxx/secret.html父目录文件夹的名字)。
如果你想让一个文件夹根本不被爬取,你可以通过 Disallow:
实现了/qiyecao/ 语法,但搜索引擎蜘蛛仍然可以爬取/qiyecao.html 页面。
注意:如果某个页面已经被搜索引擎抓取,您修改 robots.txt 文件将其屏蔽,则可能需要 1 到 2 个月的时间才能被搜索引擎删除。不过如果想加快删除速度,可以通过google网站admin工具删除。如果你的网站首页是index.asp,最好不要禁止爬取index.html或index.php等页面,以防爬取错误。
最后解释一下本文开头提出的问题:屏蔽网站后台禁止搜索引擎蜘蛛抓取,不希望其他用户知道网站后台地址。这可以通过 robots.txt 文件进行限制吗?其实这并不能被robots.txt文件限制,因为robots.txt是放在网站根目录下的文本文档,任何人都可以访问。在不让其他访问者知道的情况下阻止搜索引擎蜘蛛爬取 网站 背景的方法是将 noindex 标签添加到 网站 背景登陆页面。