php 抓取网页源码(SEO优化:robots.txt建立指令指令整合的四种方法)
优采云 发布时间: 2022-01-29 01:13php 抓取网页源码(SEO优化:robots.txt建立指令指令整合的四种方法)
介绍
在做 SEO 的时候,我们经常想要精准的控制页面。Robots.txt 不能完全满足我们的需求。这时候,我们就可以使用html元标记来精确控制搜索引擎了。下面的文章比较长,睿叔为大家整合了常用命令!
命令集成:
index/noindex 是爬取这个页面的搜索权限
follow/nofollow 是否允许从此页面索引其他链接
archive/noarchive 是否允许快照
防止搜索引擎拍摄快照
快照不被百度缓存(禁止百度快照):
所有搜索引擎,抓取本页,抓取链接,禁止快照:
所有搜索引擎,没有快照
上面的代码限制所有搜索引擎创建网页的快照。需要注意的是,此类标签仅禁止搜索引擎为您的 网站 创建快照。如果您想禁止搜索引擎对您的页面进行索引,请参考以下方法。
阻止搜索引擎抓取此页面
为了防止搜索引擎抓取这个页面,我们一般的做法是在页面的meta标签中加入如下代码:
在这里,meta name="robots" 泛指所有的搜索引擎,这里我们也可以指特定的搜索引擎。
例如元名称=”Googlebot”,元名称=”Baiduspide”等。
内容部分有四个命令:index、noindex、follow 和 nofollow。命令用英文“,”分隔。
index 命令:告诉搜索引擎抓取这个页面
follow command:告诉搜索引擎从这个页面找到链接,然后继续访问和爬取。
noindex 命令:告诉搜索引擎不要抓取这个页面
nofollow 命令:告诉搜索引擎不允许从此页面找到链接并拒绝它们进一步访问。
根据上面的命令,我们有以下四种组合
: 可以爬取这个页面,也可以继续索引这个页面上的其他链接
: 这个页面不允许被爬取,但是其他链接可以沿着这个页面被爬取和索引
: 可以爬取这个页面,但是不允许沿着这个页面爬取索引中的其他链接
: 不爬取该页面,也不爬取其他链接到该页面的索引
这里需要注意的是,两个相反的反义词不能写在一起,比如
或者只是同时写两个句子
这是一个方便的写法,如果是的话
形式,可以写成:
如果
形式,可以写成:
当然,我们也可以将禁止快照和搜索引擎的命令写入命令元标记中。从上面的文章我们知道禁止创建网页快照的命令是noarchive,那么我们可以写成如下形式:
如果不允许为单个搜索引擎创建快照,比如百度,我们可以这样写:
如果在meta标签中没有写关于蜘蛛的命令,那么默认的命令如下
因此,如果我们对这部分不确定,可以直接写上面这行命令,或者留空。
在SEO中,对蜘蛛的控制是内容中非常重要的一环,希望大家能准确把握这部分内容。