文章采集接口(平台数据采集趋于稳定的技术介绍及技术设计 )

优采云 发布时间: 2022-04-03 00:21

  文章采集接口(平台数据采集趋于稳定的技术介绍及技术设计

)

  这段时间一直在处理data采集的问题。目前平台数据采集已经稳定。大家可以花点时间整理一下最近的成果,介绍一些最近使用的技术。本文文章以技术为主,要求读者有一定的技术基础。主要介绍数据采集过程中用到的神器mitmproxy,以及平台的一些技术设计。下面是数据采集的整体设计,左边是客户端,放着不同的采集器。采集器发起请求后,通过mitmproxy访问抖音,等待数据返回。传输完成后,由中间解析器解析数据,最后以不同的类别存储在数据库中。为了提高性能,中间加了一个缓存,把采集器和解析器分开,在两个模块之间工作。在不相互影响的情况下,可以最大限度地存储数据。下图为第一代架构设计。会有一篇文章文章介绍平台架构设计的三代演进史。

  

  准备好工作了

<p>开始准备输入数据采集,第一步是搭建环境。这次我们在windows环境下使用python3.6.6环境,抓包和代理工具是mitmproxy,也可以使用Fiddler抓包,使用夜神模拟器模拟Android操作环境(也可以使用真机)。这次主要是通过手动滑动app来抓取数据。下次介绍Appium自动化工具,实现采集的数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线