搜索引擎如何抓取网页(使用html标签限制搜索引擎对网站收录 的抓取 )
优采云 发布时间: 2022-03-21 14:08搜索引擎如何抓取网页(使用html标签限制搜索引擎对网站收录
的抓取
)
有时候有这样的需求,当网页没有完成,或者因为隐私问题无法发布,而这时候就无法阻止搜索引擎抓取网页了!
方法一:限制网页快照
限制所有搜索引擎创建页面快照:
限制百度搜索引擎创建页面快照:
方法二:禁止搜索引擎抓取该页面和搜索引擎参考页面
在这里,META 泛指所有搜索引擎,这里我们也可以指特定的搜索引擎。
例如:META、META等。
内容部分有四个命令:index、noindex、follow 和 nofollow。命令用英文“,”分隔。
INDEX 命令:告诉搜索引擎抓取这个页面
FOLLOW 命令:告诉搜索引擎从这个页面找到链接,然后继续访问和爬取。
NOINDEX 命令:告诉搜索引擎不要抓取这个页面
NOFOLLOW 命令:告诉搜索引擎不允许从此页面找到链接并拒绝它们进一步访问。
根据上面的命令,有以下四种组合:
:可以爬取这个页面,并且可以继续索引这个页面上的其他链接;
:该页面不允许被爬取,但其他链接可以沿着该页面被爬取和索引;
:该页面可以被爬取,但索引中的其他链接不允许沿着该页面爬取;
: 不要爬取这个页面,或者沿着这个页面爬取其他链接来索引。
通过 robots.txt
所谓robots.txt文件,就是每个搜索引擎来到你的网站之后,搜索和访问的第一个文件。> 规则。通过这个文件,搜索引擎可以知道你的网站中哪些文件可以被索引,哪些文件被拒绝索引。
转载于: