通过关键词采集文章采集api(短视频直播数据采集趋于稳定,可以抽出时间来整理 )
优采云 发布时间: 2022-03-25 08:24通过关键词采集文章采集api(短视频直播数据采集趋于稳定,可以抽出时间来整理
)
抖音API接口资料采集教程,初级版,抖音视频搜索,抖音用户搜索,抖音直播弹幕,抖音评论列表
这段时间一直在处理数据采集的问题。目前平台数据采集已经稳定。我可以花点时间整理一下最近的成果,介绍一些最近使用的技术。
本文文章以技术为主,要求读者有一定的技术基础。主要介绍数据采集过程中用到的神器mitmproxy,以及平台的一些技术设计。
下面是数据采集的整体设计,左边是客户端,放着不同的采集器。采集器发起请求后,通过mitmproxy访问抖音,等待数据返回。传输后的数据由中间解析器解析,最终分门别类存入数据库。为了提高性能,中间加了一个缓存,把采集器和解析器分开,在两个模块之间工作。在不相互影响的情况下,可以最大限度地存储数据。下图为第一代架构设计。会有一篇文章文章介绍平台架构设计的三代演进史。
短视频直播资料采集接口SDK请点击查看接口文档
准备好工作了
<p>开始准备输入数据采集,第一步是搭建环境。这次我们在windows环境下使用python3.6.6环境,抓包和代理工具是mitmproxy,也可以使用Fiddler抓包,使用夜神模拟器模拟Android操作环境(也可以使用真机)。这次主要是通过手动滑动app来抓取数据。下次介绍Appium自动化工具,实现采集的数据