关键词文章采集源码文章爬虫各种方法的优缺点使用
优采云 发布时间: 2021-04-22 04:02关键词文章采集源码文章爬虫各种方法的优缺点使用爬虫的目的是快速的实现快速的高并发的分布式爬虫,同时还可以减少爬虫存储和访问的数据量,同时还可以达到分布式部署的优势。爬虫的爬取方式主要分为几种,一种是直接手动写逻辑来爬,也就是上一篇说的在浏览器中加载js(也叫webcookie)获取下一页数据,这种方式可能需要对服务器、反爬虫服务器进行改造才能跑起来,而且对服务器的性能要求比较高,这种方式可能很多中小型爬虫很难驾驭,同时爬虫还需要有很多实际的问题需要解决,如遇到实时性要求高的情况下,可能无法保证直接爬数据,而采用redis等代替是比较合适的方式,又可以存储全量数据,又可以通过nosql储存,无论是效率还是可读性都很好,但是有一些问题。
第二种是api定制爬虫方式,其实是使用前端的restapi来接收,直接将数据发送给后端服务器进行存储处理。存储则是mongodb、golang等都可以直接存储数据,前端的接收则基本使用json格式,存储也是使用redis。这种爬虫可以通过api定制服务器和爬虫,但是没有像直接手动写逻辑一样能做规划,可读性欠佳,同时对于内容页面的爬取可能会有很多问题。
第三种方式是使用redis定制爬虫,把爬虫交给专业人员定制,然后可以自定义爬虫进行运维和部署,这种方式是最简单高效的方式,也是中小型爬虫一定可以用到的方法,但是对于服务器要求可能比较高,所以也是对人员要求比较高的方式。存储则是使用mongodb,redis等都可以,部署也是常规的方式。对于个人开发者来说,普遍采用的爬虫爬取方式就是这三种,而使用简单、功能强大、易学好用的redis定制爬虫也是目前一个不错的选择。
下面对这三种方式的工作流程做一下详细的描述,如果对这方面感兴趣可以看看我在问卷中的答卷,有兴趣的朋友可以试试:如何使用爬虫?-腾讯云计算采集数据和数据库是两个很容易混淆的词,但是它们之间确实有着很大的联系。数据源:数据来源的选择是前端定制爬虫的首要问题,在选择上,需要把爬虫能爬取的网站做细化,比如确定是爬取按分类划分的网站,然后是按网站分类来爬取,比如按wap还是直接pc端的网站,如果爬取时分类划分做细了,你还要细分爬取的网站标签,如将来爬取pc端的网站,还需要再细分爬取标签,这些标签需要和url配对来完成,具体的方法可以参考中心化存储和分布式存储的比较,我就不在这里赘述了。
本次选择redisredis是一个轻量级内存数据库,它的存储空间很小,支持数据类型多,这就使得数据存储非常简单,数据结构也比较灵活,在各。