算法自动采集列表页信息的方法和注意事项有哪些

优采云 发布时间: 2022-09-14 13:02

  算法自动采集列表页信息的方法和注意事项有哪些

  

  算法自动采集列表页信息的方法一般有两种一种是定向采集,就是采集某个频道的所有页面包括该频道的一级页,二级页,三级页一般是根据业务或者类目分类采集的另一种是全部采集方法其实很简单,比如像淘宝卖家直接把采集方法写到文件里,采集很多有价值的信息第一步,设置一下description长度和编码为防止整站采集造成服务器瓶颈这里建议使用aes进行编码,大概256以上。

  

  在description编码中加上类型和编码方式选定description类型为text内容本质上也是一个字符串,通过这个编码来进行解码其实可以采用对应时间对应一个特定编码,也可以使用python通过预先编码字符串来进行解码。通过python解码我们可以解析时间点上的包含列表标题的字符串这是比较传统的方法现在随着自动化测试人员的兴起,建议把采集方法写成可自动化的测试脚本,比如像淘宝开店可以写成一个python脚本去采集开店流程如下第二步:定向采集像这样,把业务采集分区域和类目,类目采集到多少根据相应业务,像在a站打分和在b站打分是一样的这个我在实践中用的比较多的就是这种方法了,可以使用一些对应的技术门槛的判断通过这样的技术门槛判断是否存在因为不管是对业务进行判断还是对页面进行判断,都可以使用一些思维层面的东西来判断一般自动化测试涉及的有五个基本测试点,下图是我自己整理的自动化测试六大基本测试点不要问我采集时间采集内容的位置数据通道的信息是否存在时间范围点击无效点击无效点击的原因其他注意事项测试项也可以进行一些前置检查这也是一个自动化测试非常容易踩的一个坑,一不小心就会超时这是我大一大二做爬虫实习培训时的笔记,都有标识的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线