文章采集调用(爬虫应该怎么进行测试？的测试方法应该如何进行？)

优采云发布时间: 2022-02-10 13:18

　　很多同学不知道应该如何测试爬虫。我也是刚接触一点爬虫测试的新手。通过对爬虫的分析，总结了爬虫的测试方法。其他建议欢迎补充。

　　一、测试阶段

　　对于data采集调用第三方平台（比如scorpion）的流程大家可能比较熟悉。在第三方页面授权后，第三方会帮我们完成data采集的任务。我们只需要等待结果被回调。但是如果要自己做爬虫，又是一个什么样的过程呢？

　　其实爬虫和其他业务一样，也是有流程的。一般是先触发创建任务，爬虫模块对数据采集进行处理，采集完成后，对数据进行解析和存储。对于授权爬虫来说，有SDK页面的也可以直接通过页面进行请求，其他的只能通过请求接口实现。还有一种爬虫，在后台配置好任务后，会定期去网站爬取数据，更新数据库。当然还有很多其他的交互逻辑，每一步都需要分析评估。

　　因此，我们可以从创建任务的界面入手，连接整个流程，在界面的响应中加入简单的验证。比如创建任务后有任务编号，通过查询接口可以得到任务的结果数据。然后检查数据是否存储，存储是否准确，是否会出现乱码等。从界面入手的好处是我们可以自动化检查爬虫任务，检查数据是否可以创建，是否爬虫能否正常爬取，爬取结果是否入库。解析的逻辑和存储的准确性需要注意。爬虫结果数据的存储与数据分析和应用有关。对于数据分析，如果源数据有误，那么无论分析结果如何，都是没有意义的。.

　　总结

　　1.接口测试，调用数据接口采集，测试爬虫进程；接口基础测试和弱网、接口安全、接口性能等。

　　2.可以通过接口或者SDK测试场景，包括爬取成功的场景和失败的场景，比如无数据和无效数据。

　　3.完成采集后的分析和存储测试，数据分析和存储逻辑检查。

　　4.异常测试，主要针对系统间交互的处理逻辑，如失败重试机制、服务间容错机制等。

　　5.爬虫质量和效率，主要从整体设计和代码实现来分析爬虫的处理方式是否高可用。

　　二、在线阶段

　　一旦爬虫上线供其他业务方使用，就需要保证可用性和可靠性。对于爬虫来说，在线监控非常重要！不仅要保证提供的爬虫能够正常运行，还要保证出现异常时，能够在最短的时间内解决。因此，监测应从以下三个方面入手：

　　1.在线运行接口脚本监控提供的接口可以正常使用，而不是等业务方调整好基础接口，再反馈修复，成本比较大。主动调整界面，判断程序是否正常。您只能验证该接口是否可以运行。如果条件允许，在线运行真实数据并验证结果。

　　2.监控线上发生的异常情况，如创建任务失败、登录失败、数据采集失败、数据解析失败、回调失败、数据存储失败等。发展应尽快查明原因，尽快找到解决。

　　3.监控目标网站的状态，可以通过web自动监控目标网站是否可用，是否发生变化等。

　　对于爬虫来说，稳定性很重要，但是很多不可控的因素会导致爬虫的成功率下降。通过采取良好的监控和预防措施，我们可以将事故发生时的风险降到最低。

0

2022-02-10

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集调用(爬虫应该怎么进行测试？的测试方法应该如何进行？)

0 个评论

发起人

AI时代内容工厂

文章采集调用(爬虫应该怎么进行测试？的测试方法应该如何进行？)

0 个评论

发起人

相关问题