搜索引擎禁止的方式优化网站(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)

优采云 发布时间: 2021-09-05 11:22

  搜索引擎禁止的方式优化网站(搜索引擎爬取.txt文件的作用以及使用方法蜘蛛抓取)

  搜索引擎用来抓取网页内容的工具都被称为搜索引擎蜘蛛。如果你想阻止蜘蛛抓取某个页面到搜索引擎服务器,你可以通过robots.txt文件限制蜘蛛抓取。很多朋友想屏蔽网站后台,禁止搜索引擎蜘蛛爬取,又不想让其他用户知道网站后台的地址。这个时候可以通过robots.txt文件限制吗?

  首先我们来分析一下robots.txt文件的作用以及如何使用。搜索引擎蜘蛛来网站抓取网页内容之前,会先访问网站root目录下的robots.txt文件。如果文件不存在,搜索引擎蜘蛛默认这个网站,允许它全部爬取。 robots.txt 是一个简单的纯文本文件(记事本文件)。搜索引擎蜘蛛使用robots.txt中的内容来判断网站是否可以被全部或部分抓取。

  如果你想让所有页面网站被搜索引擎蜘蛛抓取而不屏蔽任何页面,你可以上传一个空的robots.txt文件或者不上传robots.txt文件。 (目前大部分内容管理系统源程序都会带有一个空的robots.txt文件)

  robots.txt 文件的标准格式如下:

  用户代理:*

  禁止:/secret.html

  禁止:/index.php?

  禁止:/qiyecao/

  如果要阻止某个页面 seacert.html 被抓取,只需在 robots.txt 文件中添加一行 Disallow:/secret.html(该页面是相对于网站root 目录的 URL,如果不在根目录下,请加上/xxxx/secret.html 上级目录文件夹的名称)。

  如果不想爬取某个文件夹,可以使用Disallow:/qiyecao/语法,但搜索引擎蜘蛛仍然可以爬取/qiyecao.html页面。

  注意:如果某个页面已经被搜索引擎抓取,修改robots.txt文件进行拦截,可能需要1到2个月的时间才会被搜索引擎删除。但是如果想加快删除速度,可以通过google网站Administrator Tools删除。如果你的网站home页面是index.asp,最好不要禁止抓取index.html或者index.php等页面,防止抓取错误。

  最后解释一下本文开头提出的问题:屏蔽网站后台,禁止搜索引擎蜘蛛爬取,不希望其他用户知道网站后台的地址。这时候能不能通过robots.txt文件来限制。其实这个不能被robots.txt文件限制,因为robots.txt是放在网站root目录下的文本文件,任何人都可以访问。阻止搜索引擎蜘蛛爬取网站后台而不让其他访问者知道的方法是在网站后台登录主页添加noindex标签。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线