无规则采集器列表算法(无规则采集器列表算法和标准采集结构、工程)

优采云 发布时间: 2022-02-01 11:03

  无规则采集器列表算法(无规则采集器列表算法和标准采集结构、工程)

  无规则采集器列表算法和标准采集结构

  0、工程实现(正常采集)

  1、采集工具下载

  2、采集方法(正常采集)

  3、数据库选型

  4、关系表生成算法

  5、采集结果的存储(内存还是外存)

  a、正常采集。

  a

  1、对采集结果做一些清洗,去除无用数据和采集过程中产生的生成和处理数据。

  2、采集程序定义采集规则列表。将数据按规则随机输入采集表并进行采集。遇到特殊数据按数据规则定义的格式放置采集子表。定义access、sqlserver等数据库。表为对应采集要求的关系型数据库。表的修改交给采集工具完成。b、采集标准化设置采集次数、采集范围、采集频率。建议采集人员采集新产生数据和原始数据后进行复制,复制出来的数据按正常采集进行处理。

  复制可进行多个采集模板进行复制,需要采集模板的直接采集建立模板。c、操作流程d、采集过程中可调整:通过修改采集脚本启动脚本,修改修改采集标准化位置、解释采集标准化格式、自定义采集时长、特殊格式处理等。

  d、采集结果保存方式(可选)

  二、采集介绍

  2、1正常采集设置整个采集流程如下图所示:如图所示,前期接收采集要求,先将采集要求转化为采集规则,采集规则以模板关系的形式存储在采集数据库中,具体可参考采集工具的采集规则*敏*感*词*,对采集规则进行填写调整。

  2、2每一个采集模板均需要经过规则实验。实验包括三步:①先针对一个采集规则,按需要设置规则参数,如子网覆盖率、路由、规则强度、跨城市采集等;②将采集到的数据进行输出,存储到采集工具内存中,包括采集起始时间、采集区域、采集数量等;③将采集结果进行输出,封装为图片或文本文件。图片按需要标准化采集规则。文本文件按功能进行标准化采集规则。

  2.3采集操作:①采集工具有多种采集器,通过添加规则实验得到采集规则后,可对其进行设置规则次数、采集频率、采集区域、采集次数、规则次长、规则精度等参数,这样可以大大降低采集率以及单条规则上传时间,实验可在采集器采集规则设置器进行。②采集结果转存时间(采集结果大小)是以采集模板采集文件中的大小作为转存时间,一般为3-10天。

  2.4数据库表设计a、数据库层面:对表进行封装并优化,最后进行对其进行命名为表。b、采集子库设计:一般采用采集标准化的特定区域、采集规格、采集频率、规则强度、城市级的某个或多个子区域,最终对这些子区域单独分表c、采集数据的下沉和上传:对采集规则进行下沉(存储在采集工具内存中)后通过数据库下沉到数据库中,对于一次采集,下沉到某个区域后,在一次采集时再上传一个该区域,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线