搜索引擎如何抓取网页(使用html标签限制搜索引擎对网站收录的抓取 )

优采云发布时间: 2022-03-21 14:08

　　搜索引擎如何抓取网页(使用html标签限制搜索引擎对网站收录

的抓取

)

　　有时候有这样的需求，当网页没有完成，或者因为隐私问题无法发布，而这时候就无法阻止搜索引擎抓取网页了！

　　方法一：限制网页快照

　　限制所有搜索引擎创建页面快照：

　　限制百度搜索引擎创建页面快照：

　　方法二：禁止搜索引擎抓取该页面和搜索引擎参考页面

　　在这里，META 泛指所有搜索引擎，这里我们也可以指特定的搜索引擎。

　　例如：META、META等。

　　内容部分有四个命令：index、noindex、follow 和 nofollow。命令用英文“,”分隔。

　　INDEX 命令：告诉搜索引擎抓取这个页面

　　FOLLOW 命令：告诉搜索引擎从这个页面找到链接，然后继续访问和爬取。

　　NOINDEX 命令：告诉搜索引擎不要抓取这个页面

　　NOFOLLOW 命令：告诉搜索引擎不允许从此页面找到链接并拒绝它们进一步访问。

　　根据上面的命令，有以下四种组合：

　　：可以爬取这个页面，并且可以继续索引这个页面上的其他链接；

　　：该页面不允许被爬取，但其他链接可以沿着该页面被爬取和索引；

　　：该页面可以被爬取，但索引中的其他链接不允许沿着该页面爬取；

　　: 不要爬取这个页面，或者沿着这个页面爬取其他链接来索引。

　　通过 robots.txt

　　所谓robots.txt文件，就是每个搜索引擎来到你的网站之后，搜索和访问的第一个文件。> 规则。通过这个文件，搜索引擎可以知道你的网站中哪些文件可以被索引，哪些文件被拒绝索引。

　　转载于：

0

2022-03-21

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册