微信公众号文章的完整爬取过程笔记一.基于sougou和monkeyrunner的文章自动爬取

优采云 发布时间: 2021-08-25 22:09

  微信公众号文章的完整爬取过程笔记一.基于sougou和monkeyrunner的文章自动爬取

  微信公众号文章完整爬取过程笔记

  outline一.基于sougou-api实现文章的爬行二.基于anyproxy和monkeyrunner的文章automatic crawling一.基于sougou-api实现文章爬行

  1.可以直接抢微信搜狗首页

  2.使用现有软件包+代理方式

  调用API,通过微信公众号ID获取文章的部分。

  此方法只能获取微信文章的临时链接,所以需要将html文本保存到其中

  二.文章基于anyproxy和monkeyrunner的自动爬取

  假设:你有一批微信公众号(例如:gh_1380fb0258f6)

  硬件条件:一台普通电脑(我用的是windows系统)、一部安卓手机(我用的是华为荣耀8lite)

  尽量不要使用模拟器。笔者用模拟器登录微信后发现账号被封了! ! !

  目标:爬取一批微信公众号文章的所有历史记录并增量爬取

  1.基于anyproxy公众号抓取所有文章

  这一步已经大神实现了,这里直接用他的代码:wechat_spider 微信爬虫

  具体实现过程请参考github。这一步需要注意选择正确的IP

  2.基于monkeyrunner的自动爬取(1)手机开启开发者模式

  目前我遇到的手机开启开发者模式的方式是“在系统版本号上点击7、8次”

  (2)PC 安装安卓开发包

  Android SDK的下载安装请参考AndroidDevTools

  是否安装成功的检测方法请参考:入门monkeyrunner1-monkeyrunner录音回放

  (3)自动爬取S1的过程通过微信公众号ID使用微信搜索框搜索账号

  

  图片

  

  图片

  S2点击进入账号,下拉,点击所有文章,进入

  图片

  S3下拉,点击文章列表文章中的一篇文章打开

  

  图片

  S4等待一段时间后返回微信首页继续执行S1爬虫爬取策略总结

  微信公众号文章的抓取可用于舆情监控

  我认为有两种方式:

  1.微信公众号文章监控点赞数,发现“爆料”文章,监控爆料文章的话题或事件

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线