整套解决方案:一种基于分布式爬虫技术的政策资讯采集管理系统的*敏*感*词*法

优采云 发布时间: 2020-09-05 02:32

  一种基于分布式采集器技术的策略信息采集管理系统的*敏*感*词*法

  

  本发明涉及策略信息技术领域,尤其涉及一种基于分布式爬虫技术的策略信息采集管理系统。

  背景技术:

  当前,已引入许多政策来帮助企业。但是,由于相关政策众多,制定机构不同,企业无法清晰,全面地理解。他们通常通过手工查询来查询策略以获取相关信息,并且在对策略进行筛选和解释后获取策略会浪费大量的人力资源。手动筛选策略还会增加企业的人工成本。因此,有必要进行改进。

  技术实现要素:

  本发明的目的是提供一种基于分布式爬虫技术的策略信息采集管理系统,以解决上述背景技术问题。

  为达到上述目的,本发明提供以下技术方案:基于分布式爬虫技术的策略信息采集管理系统,包括策略信息数据采集单元,数据预处理单元,数据特征提取单元,控制单元和Web爬虫系统,策略信息数据采集单元的输入端连接到Web爬虫系统,输出端通过数据预处理单元连接到数据特征提取单元,数据特征提取单元与控制单元相连,控制单元分别与数据加密单元和数据存储单元相连,控制单元通过数据传输单元与后台管理终端相连。其中,策略信息数据采集单元用于采集策略信息数据;数据预处理单元用于对采集的数据进行滤波和降噪处理,数据特征提取单元用于提取策略信息数据的特征值,网络爬虫系统用于准确地抓取多尺寸信息;数据加密单元用于对采集的数据进行加密,数据存储单元用于存储加密的数据,数据传输单元用于传输加密的策略信息数据。

  优选地,所述网络爬虫系统包括页面下载模块,页面解析模块,URL调度模块和文本数据分类模块,所述页面下载模块与所述页面解析模块连接,所述页面解析模块为通过url调度模块数据分类模块连接到文本。

  优选地,数据传输单元采用Zigbee传输单元或4g传输单元。

  优选地,其使用方法包括以下步骤:

  a。首先,网络爬虫系统对网页上的多维数据进行爬网,然后通过策略信息数据采集单元采集将其传输到数据预处理单元以进行过滤和降噪;

  b。预处理后的数据被传送到数据特征提取单元进行特征提取;

  c。特征提取后的数据由加密单元加密并存储在存储单元中;

  d。最终加密并存储的数据通过数据传输单元传输到后台管理终端,方便员工实时查看。

  优选地,步骤a中数字化文本数据的方法如下:

  a。获取原创信息,当检测到原创信息中至少有一个关键单元字符串时,从至少一个关键单元字符串中选择目标关键单元字符串;

  b。根据预设的转换公式,将目标关键单元串中待转换的值转换为目标单元对应的目标值,并将目标关键单元串中待转换的单元转换为目标单元,得到转换。与目标密钥单元字符串相对应的密钥单元字符串;

  c。将所有键单元字符串转换为相应的转换后的键单元字符串时,将生成与原创文本信息相对应的数字数据信息。

  优选地,步骤c中的加密单元的加密方法如下:

  a。生成加密密钥,并根据预定规则为该加密密钥生成一组子密钥;

  b。随机打包输入的明文数据以生成多个明文数据块;

  c。根据每个明文数据块的大小,并按照预定的规则,选择对应的子密钥对其进行加密操作,从而获得多个密文数据块;

  d。组合多个密文数据块以形成输出密文数据;

  e。最后,使用哈希加密算法对密文数据进行加密,以实现对策略信息数据的加密处理。

  与现有技术相比,本发明的有益效果是:

  (1)本发明可以通过分布式爬虫技术采集实现策略信息的准确性,同时可以实现数据的特征提取和加密,还可以实现数据的加密传输,确保管理系统的安全性。

  (2)本发明中使用的加密单元加密方法具有加密强度高,块计算速度快,计算系统开销低,可扩展优化等优点,并且可以实现数据的高效加密处理。

  图纸说明

  图1是本发明系统的框图;

  图2是本发明的流程图;

  图3是本发明的加密方法的流程图。

  具体的实现方法

  下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚,完整地描述。显然,所描述的实施例仅仅是本发明实施例的一部分,而不是全部。例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

  请参考图1-3,本发明提供了一种技术方案:基于分布式爬虫技术的策略信息采集管理系统,包括策略信息数据采集单元1、数据预处理单元2、数据特征提取单元3、控制单元4和网络爬虫系统5,策略信息数据采集单元1的输入端连接到网络爬虫系统6,输出端通过以下方式连接到数据特征提取单元3数据预处理单元2数据特征提取单元3连接到控制单元4,控制单元4分别连接到数据加密单元7、数据存储单元8,控制单元4连接到后台管理终端10数据传输单元9通过数据传输单元9采用zigbee传输单元或4g传输单元。其中,策略信息数据采集单元用于采集策略信息数据;数据预处理单元用于对采集的数据进行滤波和降噪处理,数据特征提取单元用于提取策略信息数据的特征值,网络爬虫系统用于对多维数据进行准确爬取信息;数据加密单元用于对采集的数据进行加密,并存储该数据。该单元用于存储加密的数据,数据传输单元用于传输加密的策略信息数据。

  在本发明中,网络爬虫系统5包括页面下载模块1 1、,页面分析模块1 2、,URL调度模块13和文本数据分类模块14。页面下载模块11被连接。页面分析模块12通过url调度模块13连接到文本数据分类模块14。Web爬虫系统通过改进调度方法和方法来确保爬虫系统可以获得多维信息。爬虫系统的判断逻辑。

  工作原理:本发明的使用方法包括以下步骤:

  a。首先,网络爬虫系统对网页上的多维数据进行爬网,然后通过策略信息数据采集单元采集将其传输到数据预处理单元以进行过滤和降噪;

  b。预处理后的数据被传送到数据特征提取单元进行特征提取;

  c。特征提取后的数据由加密单元加密并存储在存储单元中;

  d。最终加密并存储的数据通过数据传输单元传输到后台管理终端,方便员工实时查看。

  在本发明中,步骤a中数字化文本数据的方法如下:

  a。获取原创信息,当检测到原创信息中至少有一个关键单元字符串时,从至少一个关键单元字符串中选择目标关键单元字符串;

  b。根据预设的转换公式,将目标关键单元串中待转换的值转换为目标单元对应的目标值,并将目标关键单元串中待转换的单元转换为目标单元,得到转换。与目标密钥单元字符串相对应的密钥单元字符串;

  c。将所有键单元字符串转换为相应的转换后的键单元字符串时,将生成与原创文本信息相对应的数字数据信息。

  在本发明中,步骤c中的加密单元的加密方法如下:

  a。生成加密密钥,并根据预定规则为该加密密钥生成一组子密钥;

  b。随机打包输入的明文数据以生成多个明文数据块;

  c。根据每个明文数据块的大小,并按照预定的规则,选择对应的子密钥对其进行加密操作,从而获得多个密文数据块;

  d。组合多个密文数据块以形成输出密文数据;

  e。最后,使用哈希加密算法对密文数据进行加密,以实现对策略信息数据的加密处理。

  本发明采用的加密单元加密方法具有加密强度高,块运算速度快,计算系统开销低,可扩展优化等优点,可以实现数据的高效加密处理。

  综上所述,本发明可以通过分布式爬虫技术采集实现策略信息的准确性,同时可以实现数据的特征提取和加密,还可以实现数据的加密传输,确保管理系统的安全性。

  尽管已经示出并描述了本发明的实施例,但是本领域普通技术人员可以理解,可以对这些实施例进行各种改变而不背离本发明的原理和精神。修改,替代和变化,本发明的范围由所附权利要求书及其等同形式限定。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线