搜索引擎如何抓取网页(使用html标签限制搜索引擎对网站收录 的抓取 )

优采云 发布时间: 2022-03-21 14:08

  搜索引擎如何抓取网页(使用html标签限制搜索引擎对网站收录

的抓取

)

  有时候有这样的需求,当网页没有完成,或者因为隐私问题无法发布,而这时候就无法阻止搜索引擎抓取网页了!

  方法一:限制网页快照

  限制所有搜索引擎创建页面快照:

  限制百度搜索引擎创建页面快照:

  方法二:禁止搜索引擎抓取该页面和搜索引擎参考页面

  在这里,META 泛指所有搜索引擎,这里我们也可以指特定的搜索引擎。

  例如:META、META等。

  内容部分有四个命令:index、noindex、follow 和 nofollow。命令用英文“,”分隔。

  INDEX 命令:告诉搜索引擎抓取这个页面

  FOLLOW 命令:告诉搜索引擎从这个页面找到链接,然后继续访问和爬取。

  NOINDEX 命令:告诉搜索引擎不要抓取这个页面

  NOFOLLOW 命令:告诉搜索引擎不允许从此页面找到链接并拒绝它们进一步访问。

  根据上面的命令,有以下四种组合:

  :可以爬取这个页面,并且可以继续索引这个页面上的其他链接;

  :该页面不允许被爬取,但其他链接可以沿着该页面被爬取和索引;

  :该页面可以被爬取,但索引中的其他链接不允许沿着该页面爬取;

  : 不要爬取这个页面,或者沿着这个页面爬取其他链接来索引。

  通过 robots.txt

  所谓robots.txt文件,就是每个搜索引擎来到你的网站之后,搜索和访问的第一个文件。> 规则。通过这个文件,搜索引擎可以知道你的网站中哪些文件可以被索引,哪些文件被拒绝索引。

  转载于:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线