自动采集数据是三种方式,你想爬什么效率更高
优采云 发布时间: 2021-05-18 04:03自动采集数据是三种方式,你想爬什么效率更高
自动采集数据通常是三种方式,第一种:网页爬虫(涉及javascript、css、html),第二种:分布式爬虫(本地利用机器+分布式数据采集+持久化处理+迭代机制),第三种:实时抓取(采用golang语言),一般企业会在各自的业务区域做分割分发。对于你提供的工具,应该是采用第二种,采用golang语言,并且配备自己的源代码,分发。
如果采用第一种,就需要学习如何进行网页爬虫。给一个图,供参考:1.实时抓取2.处理复杂度3.整合各端数据:app端:wap、wap+pc、app+pc、h5、微信web、公众号等3.整合持久化处理:es2015、storm等。
同意楼上所说的;首先要定义问题。你想爬什么,由于题主主要分析it行业,我觉得你应该问:爬什么的效率更高。如果是爬wap的话,推荐pythonweb;如果是爬客户端就不要考虑scrapy之类的了,一般只能抓页面,不能抓下单类型的数据。如果想整合持久化存储,那应该是redis+mysql,或者memcached+redis,golang语言的cookie需要类似flask。
其次,得看app类型,如果是pcapp那推荐java/php;如果是小型app,推荐前端框架或者api;如果app是wap或者app和pc共存,那推荐java,整合后和持久化关系不大,如果是新闻类类型的app,推荐scrapy+hadoop;以上资料先百度,多上github看看源代码。