php禁止网页抓取(培训怎样建立robots.txt文件并阻止搜索引擎搜索引擎蜘蛛访问网站)

优采云 发布时间: 2022-03-24 05:16

  php禁止网页抓取(培训怎样建立robots.txt文件并阻止搜索引擎搜索引擎蜘蛛访问网站)

  搜索引擎智能机器人继续爬行网站,方便将它们添加到搜索引擎数据库索引中。但是,有时开发人员希望在搜索引擎结果中隐藏他们的 网站 或特殊网页,在这种情况下,robots.txt 可用于阻止搜索引擎蜘蛛访问 网站。在本示例教程中,您将学习如何创建 robots.txt 文件并防止搜索引擎蜘蛛访问或抓取 网站。

  流程 1 - 访问 Web 服务器并创建一个新文件

  首先,创建robots.txt文件,可以通过FTP手机客户端或者宝塔面板提交到网站根目录。

  第 2 步 - 编写 robots.txt

  每个搜索引擎往往都有自己的爬取专用工具(user-agen),在robots.txt中可以指定专用爬取工具User-agent。互联网技术有数百个网络爬虫,但最常见的是:

  谷歌机器人

  雅虎!啜饮

  bingbot

  AhrefsBot

  百度蜘蛛

  放大

  MJ12bot

  YandexBot

  例如,如果要防止百度搜索和爬虫专用工具访问可靠的网站,可以使用以下标准编写robots.txt:

  用户代理:百度蜘蛛

  不允许:/

  如果要阻止所有搜索引擎抓取特殊工具,可以使用*作为通配符:

  用户代理:*

  不允许:/

  如果您想阻止搜索引擎爬虫仅访问特定文件或文件夹,请使用类似英语的语法,但是,您必须指定文件或文件夹的名称。假设想要阻止搜索引擎抓取私有工具,仅访问 文章contents 文件夹(文章)和 private.php 文件。在这种情况下,robots.txt 文件的内容应如下所示:

  用户代理:*

  禁止:/articles/

  禁止:/private.php

  编写完 robots.txt 文件后,保存更改并提交到 网站 的根目录。您可以在浏览器搜索栏输入网站domain/robots.txt进行查询。

  热搜词

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线