数据采集-微信公众号文章的完整爬取过程笔记

优采云 发布时间: 2020-08-19 06:56

  数据采集-微信公众号文章的完整爬取过程笔记

  微信公众号文章的完整爬取过程笔记

  outline一.基于sougou-api实现文章的爬取二.基于anyproxy和monkeyrunner的文章自动爬取一.基于sougou-api实现文章的爬取

  1.可以直接抓陌陌搜狗主页

  2.使用已有的软件包 + 代理的方法

  调用API,通过微信公众号的ID,获取该帐号的部份文章

  这种办法只能获取陌陌文章的临时链接,所以须要把html文本保存到出来

  二.基于anyproxy和monkeyrunner的文章自动爬取

  假设条件:你有一批微信公众号ID(eg:gh_1380fb0258f6)

  硬件条件:一台普通PC(笔者使用windows系统),一台安卓手机(本人使用的是华为荣耀8lite)

  尽量不要使用模拟器,笔者在使用模拟器登录陌陌后发觉帐户被封!!!

  目标:爬取该批微信公众号的所有历史文章并增量爬取

  1.基于anyproxy爬取公众号的所有文章

  这一步早已有前辈早已实现,这里直接使用他的代码:wechat_spider 微信爬虫

  具体实现过程可参考github,在这一步须要注意选择正确的IP

  2.基于monkeyrunner实现爬取的自动化(1) 手机开启开发者模式

  目前笔者遇见的手机开启开发者模式的方法是“在系统版本号上点击7,8次”

  (2) PC安装安卓开发套件

  安卓sdk的下载与安装可以参考AndroidDevTools

  安装是否成功的测量方式可参考:入门monkeyrunner1-monkeyrunner的录制以及回放

  (3) 自动化爬取的流程S1 使用陌陌的搜索框,通过微信公众号ID搜索到该帐号

  

  image

  

  image

  S2 点击步入该帐号,下拉,点击全部文章,进入

  

  image

  S3 下拉,点击文章列表的某一篇文章,打开

  

  image

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线