php禁止网页抓取(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)

优采云 发布时间: 2022-04-09 18:46

  php禁止网页抓取(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)

  搜索引擎用来抓取网页内容的工具称为搜索引擎蜘蛛。如果您想阻止蜘蛛从搜索引擎服务器抓取某个页面,您可以通过 robots.txt 文件限制蜘蛛抓取。很多朋友希望屏蔽网站后台禁止搜索引擎蜘蛛抓取,不希望其他用户知道网站后台地址。这可以通过 robots.txt 文件进行限制吗?

  首先,我们来分析下robots.txt文件的作用和使用方法。在搜索引擎蜘蛛来到站点抓取网页内容之前,它会首先访问 网站 根目录下的 robots.txt 文件。如果该文件不存在,则搜索引擎蜘蛛默认使用此 网站 以允许它全部抓取。robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎蜘蛛通过robots.txt中的内容判断网站是否可以全部或部分抓取。

  如果您希望网站搜索引擎蜘蛛抓取所有页面而不阻止任何页面,您可以不上传 robots.txt 文件或上传一个空的 robots.txt 文件。(目前大部分内容管理系统源程序都带有一个空的 robots.txt 文件)

  robots.txt 文件的标准格式如下:

  用户代理: *

  禁止:/secret.html

  禁止:/index.php?

  禁止:/qiyecao/

  如果要阻止页面 seacert.html 抓取,只需将 Disallow 添加到 robots.txt 文件中:

  /secret.html 这行代码(这个网页是相对于网站的根目录的URL,如果不在根目录下,请加上/xxxx/secret.html父目录文件夹的名字)。

  如果你想让一个文件夹根本不被爬取,你可以通过 Disallow:

  实现了/qiyecao/ 语法,但搜索引擎蜘蛛仍然可以爬取/qiyecao.html 页面。

  注意:如果某个页面已经被搜索引擎抓取,您修改 robots.txt 文件将其屏蔽,则可能需要 1 到 2 个月的时间才能被搜索引擎删除。不过如果想加快删除速度,可以通过google网站admin工具删除。如果你的网站首页是index.asp,最好不要禁止爬取index.html或index.php等页面,以防爬取错误。

  最后解释一下本文开头提出的问题:屏蔽网站后台禁止搜索引擎蜘蛛抓取,不希望其他用户知道网站后台地址。这可以通过 robots.txt 文件进行限制吗?其实这并不能被robots.txt文件限制,因为robots.txt是放在网站根目录下的文本文档,任何人都可以访问。在不让其他访问者知道的情况下阻止搜索引擎蜘蛛爬取 网站 背景的方法是将 noindex 标签添加到 网站 背景登陆页面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线