php 抓取网页源码(SEO优化:robots.txt建立指令指令整合的四种方法)

优采云 发布时间: 2022-01-29 01:13

  php 抓取网页源码(SEO优化:robots.txt建立指令指令整合的四种方法)

  介绍

  在做 SEO 的时候,我们经常想要精准的控制页面。Robots.txt 不能完全满足我们的需求。这时候,我们就可以使用html元标记来精确控制搜索引擎了。下面的文章比较长,睿叔为大家整合了常用命令!

  

  命令集成:

  index/noindex 是爬取这个页面的搜索权限

  follow/nofollow 是否允许从此页面索引其他链接

  archive/noarchive 是否允许快照

  防止搜索引擎拍摄快照

  快照不被百度缓存(禁止百度快照):

  所有搜索引擎,抓取本页,抓取链接,禁止快照:

  所有搜索引擎,没有快照

  上面的代码限制所有搜索引擎创建网页的快照。需要注意的是,此类标签仅禁止搜索引擎为您的 网站 创建快照。如果您想禁止搜索引擎对您的页面进行索引,请参考以下方法。

  阻止搜索引擎抓取此页面

  为了防止搜索引擎抓取这个页面,我们一般的做法是在页面的meta标签中加入如下代码:

  在这里,meta name="robots" 泛指所有的搜索引擎,这里我们也可以指特定的搜索引擎。

  例如元名称=”Googlebot”,元名称=”Baiduspide”等。

  内容部分有四个命令:index、noindex、follow 和 nofollow。命令用英文“,”分隔。

  index 命令:告诉搜索引擎抓取这个页面

  follow command:告诉搜索引擎从这个页面找到链接,然后继续访问和爬取。

  noindex 命令:告诉搜索引擎不要抓取这个页面

  nofollow 命令:告诉搜索引擎不允许从此页面找到链接并拒绝它们进一步访问。

  根据上面的命令,我们有以下四种组合

  : 可以爬取这个页面,也可以继续索引这个页面上的其他链接

  : 这个页面不允许被爬取,但是其他链接可以沿着这个页面被爬取和索引

  : 可以爬取这个页面,但是不允许沿着这个页面爬取索引中的其他链接

  : 不爬取该页面,也不爬取其他链接到该页面的索引

  这里需要注意的是,两个相反的反义词不能写在一起,比如

  或者只是同时写两个句子

  这是一个方便的写法,如果是的话

  形式,可以写成:

  如果

  形式,可以写成:

  当然,我们也可以将禁止快照和搜索引擎的命令写入命令​​元标记中。从上面的文章我们知道禁止创建网页快照的命令是noarchive,那么我们可以写成如下形式:

  如果不允许为单个搜索引擎创建快照,比如百度,我们可以这样写:

  如果在meta标签中没有写关于蜘蛛的命令,那么默认的命令如下

  因此,如果我们对这部分不确定,可以直接写上面这行命令,或者留空。

  在SEO中,对蜘蛛的控制是内容中非常重要的一环,希望大家能准确把握这部分内容。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线