u采采集(u采采集app应用商店和ucappstore的合并与解析（上）)

优采云发布时间: 2021-09-18 12:07

　　u采采集app是基于采集脚本的hook技术实现的，将浏览器请求，各种方法（xpathscripthtml等）获取的数据，都进行合并与解析（把json数据拆分成list数据，解析出重要字段的内容），抓取成功后再发送给hook我的kindle书库上，这是目前为止最快的抓取方法了（被封一周后的昨天昨天刚刚抓到）我目前还是采用前端代理模拟用户登录比较有效。

　　采集js生成数据包，

　　采集别人update的txt数据，

　　采集对方推荐书，

　　程序已成功采集收藏夹书籍信息，

　　现在的抓包工具都可以抓到app请求后的json数据，另外已经有一些工具可以通过get方式采集然后再转包。但是采集app包的实际效果也不是特别好。

　　之前写过一个python脚本，把github上面的源码gallery_all.py，照猫画虎实现了。我以前看书我喜欢在appstore查找适合自己阅读的资源，因为app比较稳定。在这种情况下，我就采集了app应用商店和ucappstore的一些页面。不得不说，这个技术我还是蛮满意的，整理出来分享给有需要的人吧！整个过程不到一天的时间。

　　可以看看过程图以及源码。我个人觉得app的列表是完整的可读的，不需要每次都去改格式格式支持了。1.数据收集准备工作下载2.抓包工具抓包工具：需要精通udp协议，netcrypt,netbeans抓包工具的安装，建议在python中ethereum网上download，我直接拷贝下来了。根据自己的项目或者合作伙伴要求设置vpnpost方式。

　　建议自己先弄一个尝试一下。如果自己设置不成功可以再来问。3.数据转包hookjavapackage中的jsonurl解析抓包结果（手机版手机端必须勾选useragentcorstransfer）那么我们就可以这样来验证我们是否hook了，已这样来测试，其他网页也是如此，只要dns设置成相应的就可以。不过还是有些报错,建议做爬虫测试，在这种情况下就不做实验了，因为抓包设置好环境就可以。

　　之前方法不能用在云服务器上。使用dns服务器：我一般会使用post的api，jsonobject也是通过post转包出来的，这里不引用post服务器功能了4.数据解析抓包之后就是分析抓取数据，其实这里包含网页源码分析和json结构分析。从源码中可以看到json格式的数据就是html对象一样。也可以看到网页中获取的wx.setdata({user:'youruseragent',pwd:'test',token:'verify:true'})。

　　通过上面的分析可以很容易知道username和pwd那么如何保证我们能够在网页中查看json的格式信息呢？这里我们使用json格式化对比,从源码中看网页和一个专业网站的区别就在于json格式。

0

2021-09-18

u采采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

u采采集(u采采集app应用商店和ucappstore的合并与解析（上）)

0 个评论

发起人

AI时代内容工厂

u采 采集(u采采集app应用商店和ucappstore的合并与解析（上）)

0 个评论

发起人

相关问题

u采采集(u采采集app应用商店和ucappstore的合并与解析（上）)