php禁止网页抓取(robots写法大全和robots.txt.语法的作用!)

优采云 发布时间: 2021-11-25 22:12

  php禁止网页抓取(robots写法大全和robots.txt.语法的作用!)

  如何编写robots.txt以及robots.txt语法的作用

  1 如果允许所有搜索引擎访问网站的所有部分,我们可以创建一个空白文本文档,命名为robots.txt,并将其放在网站的根目录中。

  Robots.txt 的写法如下:

  用户代理: *

  不允许:

  或者

  用户代理: *

  允许: /

  2如果我们禁止所有搜索引擎访问网站的所有部分

  Robots.txt 的写法如下:

  用户代理: *

  不允许: /

  3 如果我们需要搜索引擎抓取,比如百度,百度是禁止索引我们的网站词

  Robots.txt 的写法如下:

  用户代理:百度蜘蛛

  不允许: /

  4 如果我们禁止谷歌索引我们的网站,其实和例3一样,就是把User-agent:头文件中蜘蛛的名字改成谷歌的Googlebot

  能

  Robots.txt 的写法如下:

  用户代理:Googlebot

  不允许: /

  5 如果我们禁止除 Google 之外的所有搜索引擎将我们的 网站 词编入索引

  Robots.txt 的写法如下:

  用户代理:Googlebot

  不允许:

  用户代理: *

  不允许: /

  6 如果我们禁止除百度以外的所有搜索引擎索引我们的网站

  Robots.txt 的写法如下:

  用户代理:百度蜘蛛

  不允许:

  用户代理: *

  不允许: /

  7 如果我们需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引

  Robots.txt 的写法如下:

  用户代理: *

  禁止:/css/

  禁止:/管理员/

  禁止:/图像/

  8 如果我们允许蜘蛛访问我们网站的某个目录中的某些特定URL

  Robots.txt 的写法如下:

  用户代理: *

  允许:/css/my

  允许:/admin/html

  允许:/图像/索引

  禁止:/css/

  禁止:/管理员/

  禁止:/图像/

  9 我们在一些网站的robots.txt中看到Disallow或Allow中的一些符号,例如问号和星号。如果使用“”,主要是限制访问某个后缀的域名,禁止访问/html/目录(包括子目录)中所有后缀为“.htm”的URL。

  Robots.txt 的写法如下:

  用户代理: *

  禁止:/html/.htm

  10 如果我们使用“”,我们只允许访问某个目录中带有某个后缀的文件robots.txt。写法如下: User-agent:∗Allow:.asp" 表示只允许访问某个目录下带有某个后缀的文件robots.txt 写法如下: User-agent:*Allow:.asp"表示只允许访问特定目录中具有特定后缀的文件。Robots.txt 的写法如下: User-agent:∗Allow:.asp

  不允许: /

  11 如果我们禁止索引网站中的所有动态页面(此处限制带“?”的域名,例如index.asp?id=1)

  Robots.txt 的写法如下:

  用户代理: *

  不允许: /?

  有时,为了节省服务器资源,我们需要禁止各种搜索引擎在网站上索引我们的图片。这里的方法除了使用“Disallow:/images/”直接屏蔽文件夹之外。也可以直接屏蔽图片后缀名。

  例 12

  如果我们禁止Google搜索引擎抓取我们网站上的所有图片(如果您的网站使用了其他后缀的图片名称,您也可以在这里直接添加)

  Robots.txt 的写法如下:

  用户代理:Googlebot

  禁止:.jpg$

  禁止:.jpeg$

  禁止:.gif$

  禁止:.png$

  禁止:.bmp$

  13 如果我们禁止百度搜索引擎抓取我们网站上的所有图片

  Robots.txt 的写法如下:

  用户代理:百度蜘蛛

  禁止:.jpg$

  禁止:.jpeg$

  禁止:.gif$

  禁止:.png$

  禁止:.bmp$

  14 除百度和谷歌外,其他搜索引擎禁止抓取您的图片网站

  (注意这里,为了让大家看得更清楚,用了一个比较笨的方法——对单个搜索引擎单独定义。)

  Robots.txt 的写法如下:

  用户代理:百度蜘蛛

  允许:.jpeg$

  允许:.gif$

  允许:.png$

  允许:.bmp$

  用户代理:Googlebot

  允许:.jpeg$

  允许:.gif$

  允许:.png$

  允许:.bmp$

  用户代理: *

  禁止:.jpg$

  禁止:.jpeg$

  禁止:.gif$

  禁止:.png$

  禁止:.bmp$

  15 只允许百度抓取网站上的“JPG”格式文件

  (其他搜索引擎的方法与此相同,只需修改搜索引擎的蜘蛛名称即可)

  Robots.txt 的写法如下:

  用户代理:百度蜘蛛

  允许:.jpg$

  禁止:.jpeg$

  禁止:.gif$

  禁止:.png$

  禁止:.bmp$

  16只禁止百度爬取网站上的“JPG”格式文件

  Robots.txt 的写法如下:

  用户代理:百度蜘蛛

  禁止:.jpg$

  17如果?代表一个会话 ID,您可以排除所有收录该 ID 的网址,以确保 Googlebot 不会抓取重复的页面。但是,网址以什么结尾?可能是您要收录的页面版本。在这种情况下,可以将 Vaughan 与 Allow 命令结合使用。

  Robots.txt 的写法如下:

  用户代理:*

  允许:/?$

  不允许:/?

  不允许:/?

  一行将阻止收录?(具体来说,它将阻止所有以您的域名开头,后跟任何字符串,然后是问号 (?),然后是任何字符串的 URL)。Allow: /?$ 将允许任何以? (具体来说,它将允许所有以您的域名开头,后跟任何字符串,然后是问号 (?) 的 URL,问号 URL 后没有任何字符)。

  18 如果我们想禁止搜索引擎访问某些目录或某些网址,我们可以截取一些名称

  Robots.txt 的写法如下:

  用户代理:*

  不允许:/plus/feedback.php?

  以上内容供大家参考。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线