u采 采集(u采采集app应用商店和ucappstore的合并与解析(上))
优采云 发布时间: 2021-09-18 12:07u采 采集(u采采集app应用商店和ucappstore的合并与解析(上))
u采采集app是基于采集脚本的hook技术实现的,将浏览器请求,各种方法(xpathscripthtml等)获取的数据,都进行合并与解析(把json数据拆分成list数据,解析出重要字段的内容),抓取成功后再发送给hook我的kindle书库上,这是目前为止最快的抓取方法了(被封一周后的昨天昨天刚刚抓到)我目前还是采用前端代理模拟用户登录比较有效。
采集js生成数据包,
采集别人update的txt数据,
采集对方推荐书,
程序已成功采集收藏夹书籍信息,
现在的抓包工具都可以抓到app请求后的json数据,另外已经有一些工具可以通过get方式采集然后再转包。但是采集app包的实际效果也不是特别好。
之前写过一个python脚本,把github上面的源码gallery_all.py,照猫画虎实现了。我以前看书我喜欢在appstore查找适合自己阅读的资源,因为app比较稳定。在这种情况下,我就采集了app应用商店和ucappstore的一些页面。不得不说,这个技术我还是蛮满意的,整理出来分享给有需要的人吧!整个过程不到一天的时间。
可以看看过程图以及源码。我个人觉得app的列表是完整的可读的,不需要每次都去改格式格式支持了。1.数据收集准备工作下载2.抓包工具抓包工具:需要精通udp协议,netcrypt,netbeans抓包工具的安装,建议在python中ethereum网上download,我直接拷贝下来了。根据自己的项目或者合作伙伴要求设置vpnpost方式。
建议自己先弄一个尝试一下。如果自己设置不成功可以再来问。3.数据转包hookjavapackage中的jsonurl解析抓包结果(手机版手机端必须勾选useragentcorstransfer)那么我们就可以这样来验证我们是否hook了,已这样来测试,其他网页也是如此,只要dns设置成相应的就可以。不过还是有些报错,建议做爬虫测试,在这种情况下就不做实验了,因为抓包设置好环境就可以。
之前方法不能用在云服务器上。使用dns服务器:我一般会使用post的api,jsonobject也是通过post转包出来的,这里不引用post服务器功能了4.数据解析抓包之后就是分析抓取数据,其实这里包含网页源码分析和json结构分析。从源码中可以看到json格式的数据就是html对象一样。也可以看到网页中获取的wx.setdata({user:'youruseragent',pwd:'test',token:'verify:true'})。
通过上面的分析可以很容易知道username和pwd那么如何保证我们能够在网页中查看json的格式信息呢?这里我们使用json格式化对比,从源码中看网页和一个专业网站的区别就在于json格式。