微信索引批量采集和导出
优采云 发布时间: 2020-08-05 12:50[内容摘要]
备注: 本文仅作为采集想法的注释,而不是特定的技术文档. 微信在2017年的前十天发布了微信索引,可以根据用户输入的关键词查询7天,30天和90天的关键词搜索兴趣. 本文旨在记录批量采集微信索引的想法.
[文字]
由于我妻子的工作需要,我不得不研究如何在“微信索引”小程序中批量导出关键字索引.
一个,手动+代理
由于时间限制和繁重的T.T任务,我首先采用了一种相对笨拙的方法,使用anyproxy捕获手机流量并找到与关键字索引信息相对应的json文件. 这个想法是在不输入关键字的情况下保存相应的json文件,手动替换所有不必要的信息,然后将其保存在txt文件中.
此方法的优点是简单!任何数据包捕获工具或软件(例如anyproxy,fiddler或Apache代理)都可以找到相应的json文件. 缺点也很明显,那就是您必须手动输入!效率低!您必须手动替换不需要的json中的符号,而另存为excel更加麻烦!
两个,手册+代理+脚本
从先前版本的经验中吸取经验,为了加快采集效率,仍然使用anyproxy来捕获与关键字相对应的json文件,然后通过anyproxy提供的接口来编写用于自动保存的脚本,因为每个工具使用的语言不同,Anyproxy使用nodejs语言编写相应的接口,因此此处省略了脚本代码. 这个想法很简单,即当代理服务器检测到json文件时,它会保存相应的关键字信息: 将WeChat索引存储在txt文本或数据库中,从而节省了手动保存的过程.
此方法的优点是,与方法1相比,它节省了手动保存索引的过程,并且可以通过脚本自定义存储方法和格式. 缺点仍然是您需要手动输入关键字,这不够自动化.
三,手机自动模拟按键输入关键词+座席+脚本
我妻子采集的对关键字的需求已增加到数百个. 手动输入它们仍然不现实. 此时,要求手机在微信索引小程序的搜索框中自动输入关键词. 只要可以自动输入关键字,其余方法与第二种方法并没有太大区别. 百度对于如何实现手机的按钮向导和相应的代码(我使用android系统的模拟器)是一件好事.
此方法的优点是采集的自动化程度相对较高!您只需要在手机中存储关键字列表文件即可自动采集它!也有缺点. 编写按钮向导非常麻烦. 我从未做过Android. 有时,点击过程中会出现错误,需要手动注视.
四个python + url分析
分析通过捕获数据包获得的json文件的url,我们可以发现它们是规则的,并且相应的参数是由一个小程序生成的. 因此,用python编写了一个小的搜寻器来采集分析后的url!成功了!想法是使用应用程序小程序来生成参数!将值传递给python,然后拼接网址并采集!这种方法非常有效!我决定仍然可以每秒采集3个json数据(如果您想提高效率,可以减少采集间隔. 至于是否将其阻止,我没有尝试过). 这种方法的缺点是url参数不是固定的,需要由应用程序定期生成.
第五,等待伟大的上帝完善
能力有限,必须有更多便捷高效的采集方法,等待网络上所有众神展示自己的魔力^^.
以下是我导出的索引的一些格式,以供参考.
(1)txt格式
(2)Excel水平格式格式
(3)Excel垂直格式格式