搜索引擎如何抓取网页(让我对“如何和爬虫对话”这个课题有了一些思考)
优采云 发布时间: 2021-11-06 22:15搜索引擎如何抓取网页(让我对“如何和爬虫对话”这个课题有了一些思考)
爬取策略:那些网页是我们需要下载的,那些不需要下载的,那些网页是我们优先下载的。明确定义后,可以省去很多不必要的爬行。更新策略:监控列表页面发现新页面;定期检查页面是否过期等提取策略:我们应该如何从网页中提取我们想要的内容,不仅是最终的目标内容,还有下一步要爬取的URL。爬取频率:我们需要合理的下载网站,但又不失效率。
让我对“如何与爬虫交谈”这个话题有一些想法。下面的总结主要是为了迎合上面提到的爬虫“爬取策略”。
1、 通过robots.txt与爬虫对话:搜索引擎发现新站点。原则上,第一个访问的是robots.txt文件。您可以通过允许/禁止语法告诉搜索引擎可以抓取哪些文件目录。无法抓取。
关于robots.txt的详细介绍:关于/robots.txt 还有一点需要注意的是:allow/disallow语法顺序不同
2、通过meta标签与爬虫对话:比如我们有时候希望网站列表页不被搜索引擎抓取收录但是我们也希望搜索引擎抓取,那么我们可以使用 <meta name=" "robots" content="noindex, follow"> 告诉爬虫其他常见的有 noarchive、nosnippet、noodp 等。
3、 通过rel="nofollow"与爬虫对话:关于rel="nofollow" 国平最近写了一篇文章 《如何使用Nofollow》值得一读,相信看完你就会拥有了 很棒灵感。
4、通过rel="canonical"与爬虫对话:关于rel="canonical" 谷歌网站站长工具帮助有很详细的介绍:详细了解rel="canonical"
5、通过网站地图和爬虫对话:xml格式的站点地图和html格式的站点地图比较常见。xml格式的站点地图可以分割也可以压缩。另外,站点地图地址可以写入robots.txt文件。
6、通过网站管理员工具和搜索引擎对话:我们接触最多的是谷歌网站管理员工具,可以设置googlebot抓取的频率,屏蔽不想抓取的链接被抓取、控制附加链接等。此外,必应和雅虎也有管理员工具。百度拥有百度站长平台。已经内测一年多了,没有邀请码是无法注册的。
<p>另外,还有一个由此衍生出来的概念,就是我一直看重的网站收录比例,也就是所谓的网站收录 ratio=网站在搜索引擎中收录/网站的真实数据量,网站收录的比例越高,搜索引擎对