自动采集数据是三种方式，你想爬什么效率更高

优采云发布时间: 2021-05-18 04:03

　　自动采集数据通常是三种方式，第一种：网页爬虫（涉及javascript、css、html），第二种：分布式爬虫（本地利用机器+分布式数据采集+持久化处理+迭代机制），第三种：实时抓取（采用golang语言），一般企业会在各自的业务区域做分割分发。对于你提供的工具，应该是采用第二种，采用golang语言，并且配备自己的源代码，分发。

　　如果采用第一种，就需要学习如何进行网页爬虫。给一个图，供参考：1.实时抓取2.处理复杂度3.整合各端数据：app端：wap、wap+pc、app+pc、h5、微信web、公众号等3.整合持久化处理：es2015、storm等。

　　同意楼上所说的；首先要定义问题。你想爬什么，由于题主主要分析it行业，我觉得你应该问：爬什么的效率更高。如果是爬wap的话，推荐pythonweb；如果是爬客户端就不要考虑scrapy之类的了，一般只能抓页面，不能抓下单类型的数据。如果想整合持久化存储，那应该是redis+mysql，或者memcached+redis，golang语言的cookie需要类似flask。

　　其次，得看app类型，如果是pcapp那推荐java/php；如果是小型app，推荐前端框架或者api；如果app是wap或者app和pc共存，那推荐java，整合后和持久化关系不大，如果是新闻类类型的app，推荐scrapy+hadoop；以上资料先百度，多上github看看源代码。

0

2021-05-18

自动采集数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集数据是三种方式，你想爬什么效率更高

0 个评论

发起人

AI时代内容工厂

自动采集数据是三种方式，你想爬什么效率更高

0 个评论

发起人

相关问题