微信指数批量采集、导出

优采云 发布时间: 2020-08-25 11:44

  微信指数批量采集、导出

  【内容摘要】

  备注:本文只做采集思路的笔记,不做具体技术文档。微信在2017年下旬推出了陌陌指数这个小程序,可以按照用户输入的关键词查询该关键词7天、30天、90天的搜索热度。本文致力记录批量采集微信指数的思路。

  【正文】

  由于丈夫大人工作须要,不得已研究了一下怎么批量导入“微信指数”小程序中的关键词指数。

  一、手动+代理

  由于时间紧任务重T.T,起先采用了一个比较笨的方式,利用anyproxy抓包手机流量,找到关键词指数信息对应的json文件。思路是没输入一个关键词,就将对应的json文件保存出来,手动替换所有不要的信息,保存到txt文件中。

  此方式优点是简单!任何抓包工具或软件如anyproxy、fiddler或Apache proxy都能找到对应的json文件,缺点也是很明显的,就是要自动输入!效率低!还要自动替换不要的json中的符号,存为excel更是麻烦!

  二、手动+代理+脚本

  吸取上一个版本的经验,为了推动采集效率,仍然采用anyproxy抓包关键词对应的json文件,然后通过anyproxy提供的插口,编写自动化保存的脚本,由于各个工具采用的语言不太一样,anyproxy采用nodejs语言编撰对应的插口,因此,此处就省略脚本代码。思路很简单,就是当代理服务器探测到json文件后,就将相应的关键词信息:微信指数存到txt文本或则数据库中,这样,就节约了自动保存的过程。

  此方式的优点是相比方式一节约了自动保存指数的过程,而且可以通过脚本订制储存的形式和格式,缺点一直是须要自动输入关键词,不够自动化。

  三、手机手动模拟键盘输入关键词+代理+脚本

  老婆采集的关键词需求降低到了上百个,仍要自动输入是不现实的,此时就须要手机才能手动在陌陌指数小程序的搜索框输入关键词。只要才能手动输入关键词,其余方式就和二差距不大了。对于怎样实现手机的按键精灵以及相应的代码(本人采用的是android系统的模拟器),百度是个好东西哈哈哈。

  此方式优点是采集的自动化程度相对比较高了!只须要有一个关键词列表文件存在手机中,就可进行自动化采集!缺点也是有的,写按键精灵蛮费事的,我也没做过Android,点击过程偶而会出现bug,需要人工盯住。

  四、python+url剖析

  分析抓包得到的json文件的url,可以发觉她们是有规律的,相应的参数是由小程序生成的,因此,用python写了一个小爬虫对剖析得到的url进行采集!居然成功了!思路就是借助app小程序生成参数!传值到python中,然后拼接url并进行采集即可!此方式非常高效!我定了每秒3个json数据仍旧可以采集(如果想效率更高可以降低采集间隔,至于会不会被封我还没试)。此方式美中不足的是url参数并不是固定的,需要app定期生成。

  五、待高手建立

  能力有限,肯定还有更方便高效的采集方式,等待网路上各路高手各显神通^ ^。

  以下是我导入的指数的一些格式,留待参考。

  (1)txt格式的

  

  (2)Excel横版格式的

  

  (3)Excel竖版格式的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线