文章采集平台(文章采集平台多,数据量过大怎么办?(一))
优采云 发布时间: 2021-09-21 11:01文章采集平台多,接口也多,本来就太繁杂,再加上传统方式,测试出现各种坑,毕竟数据量过大。先是介绍的一些传统方式测试大数据量的页面经验,再着让我去测试dede个站的页面也是有难度的,特别是那些优惠券接口,一般都是拿来做些用户分析,反正我是不会用的。我目前会用一些正则方面的方法去通过特征去匹配,然后用正则匹配,然后再去爬虫,但是很多人都会写f12或者用爬虫器进行抓包,分析多了容易出现问题,所以测试方法还是先得知道自己的模块都是有哪些接口吧。
跟测试妹纸商量了下有些接口是f12不能获取结果,只能去抓取数据,比如客户端js跳转,重定向等,或者分页请求响应不到任何数据就直接挂掉了,或者有少部分的接口直接报空数据等。还有就是大数据量很多接口可能返回都是一堆数字字符串,这样我们就不知道如何进行统计了。像知乎的用户登录信息,可能接口有部分返回是空,或者接口很长,没有返回数据,只能我们自己去统计。
大数据量必然对于ip带宽有更高的要求,但是这又是另外一个话题,而我不打算去研究那些。所以这个就是让我测试个测试用,能够让我写代码的工具也就没多少了,再这种竞争下,测试也需要各种各样。最后我觉得先得知道接口,再去手动爬虫,按照规则手动爬,或者用爬虫,比如我很久前玩的python爬虫工具uniquepage。
首先得知道这个接口返回是数据还是响应结果还是页面请求的请求地址,现在db并没有打包上传整合到http请求服务器里,所以就只能按照常规的方法,打包上传数据,再存到数据库里。但是对于我们开发来说肯定不允许去要这个数据,如果为了数据而去牺牲响应时间,那就损失了开发效率了。也就是我们这种用go语言写app的,不做爬虫,很容易就接入uniquepage,到时候接入这个接口就是用他封装的restapi,也是go标准库,可以快速的把传统爬虫接入到uniquepage里。
对于传统爬虫还是需要考虑,说明一下这里是一个手机领域,其他还是有很多不同的,比如是否需要现在模拟器转换成手机端,先用手机端来测试,然后转换成电脑端再来测试,等等一系列问题的。代码到了就好说。第一步,测试一下手机端是否需要模拟器转换,然后才可以上手。我先将电脑端的电商接口从其他地方复制了一下来测试,可以看出电商接口返回响应还是以一个格式的,所以直接用python,我也是搞点小山寨接口就可以了,也没多少逻辑,什么objcc++windows多线程iosandroid,然后解析就ok,后端我也没好好搞,也就用了mysql2.7.23和mysqlno-user就可以,拿去可以乱用,像。