自动采集数据(平台数据采集趋于稳定的技术介绍及技术设计 )
优采云 发布时间: 2021-10-21 10:25自动采集数据(平台数据采集趋于稳定的技术介绍及技术设计
)
这段时间一直在处理数据采集。目前平台数据采集已经稳定。可以花点时间整理一下最近的成果,顺便介绍一些最近用到的技术。本文文章偏技术要求读者有一定的技术基础,主要介绍了数据处理过程中用到的神器mitmproxy采集,以及平台的一些技术设计。下面是数据采集的整体设计,client在左边,不同的采集器放在里面。采集器发起请求后,通过mitmproxy访问抖音,等待数据返回后,通过中间解析器对数据进行解析,最后分门别类存储到数据库中。为了提高性能,中间加了一个缓存,将采集器与解析器分开,两个模块之间的工作互不影响,尽可能将数据存入数据库。下图为第一代架构设计。后续会有文章介绍平台架构设计的三代演进历史。
准备好工作了
开始进入数据采集的准备工作,第一步自然是搭建环境,这次我们在windows环境下,使用python3.6.6环境,抓包和代理工具是 mitmproxy ,也可以用Fiddler抓包,用夜神模拟器模拟Android运行环境(也可以用真机)。这一次,您可以手动滑动应用程序来捕获数据。下次我们会介绍Appium自动化工具实现数据。采集是全自动的(解放双手)。
<p>1、安装python3.6.6环境,安装过程可以自行百度,需要注意的是centos7自带python2.7,需要升级到python