php禁止网页抓取(基于网站安全与盈利的因素,搜索引擎不能属性屏蔽收录)

优采云 发布时间: 2022-04-09 21:05

  php禁止网页抓取(基于网站安全与盈利的因素,搜索引擎不能属性屏蔽收录)

  基于网站安全和盈利因素,网站管理员不希望某些目录或页面被爬取和收录,例如付费内容、处于测试阶段的页面以及具有重复内容的页面。

  

  虽然在构建网站的过程中,使用JavaScript、Flash链接和Nofollow属性可以让搜索引擎蜘蛛远离,导致页面不是收录。

  但在某些情况下,搜索引擎可以读取它们。基于网站排名考虑,我们建议谨慎使用JavaScript、Flash链接和Nofollow属性来阻止收录。

  我强调,使用JavaScript和Flash链接建站其实是在给网站制造蜘蛛陷阱,让搜索引擎无法正确判断和抓取页面的主题和文字。

  为保证网站某些目录或页面不被收录阻塞,需要正确使用robots文件或Meta Robots标签来实现网站的阻塞收录@ > 机制。

  1、机器人文件

  当搜索引擎蜘蛛访问网站时,它会首先检查网站的根目录下是否有一个名为robots.txt的纯文本文件。它的主要作用是让搜索引擎抓取或禁止网站的一些内容。

  用户代理:* 适用于所有蜘蛛

  禁止:/上传/

  禁止:.jpg$ 禁止抓取所有 .jpg 文件

  禁止:*.html 禁止抓取所有 html 文件

  禁止:/upload/index.html

  Disallow 禁止抓取哪些文件或目录。 Allow 告诉搜索引擎应该抓取哪些页面。由于没有指定,所以允许爬取,所以单独写allow是没有意义的。

  2、元机器人标签

  元机器人标签是页面头部的一种元标签,用于指示搜索引擎禁止对该页面的内容进行索引。

  最简单的元机器人标签格式是:

  name=”robots” content=”noindex,nofollow”>

  效果是禁止所有搜索引擎对该页面进行索引,并禁止该页面上的链接。

  name=”robots” content=”noindex”>

  效果是禁止对该页面进行索引,但允许蜘蛛跟踪页面上的链接,并且还可以传递权重。

  Google、Bing、Yahoo 支持的标签如下:

  Noindex:不索引此页面

  Nofollow:不要关注此页面上的链接

  Nosnippet:不在搜索结果中显示片段文本

  Noarchive:不显示快照

  Noodp:不要使用打开目录中的标题和描述

  百度支持:Nofollow 和 Noarchive

  只有在禁止索引时使用元机器人才有意义。

  带有 noindex 肉机器人标签的页面将被抓取,但不会被编入索引,并且该页面 URL 不会出现在搜索结果中,这与 robots 文件不同。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线