网站自动采集系统(1.一种基于大数据的网页目标数据自动提取系统的研究)
优采云 发布时间: 2021-12-31 15:32网站自动采集系统(1.一种基于大数据的网页目标数据自动提取系统的研究)
技术特点:
1.基于大数据的Web目标数据自动提取系统,包括输入模块、数据采集模块、预处理模块、深度处理模块、传输模块、数据比较模块和存储模块,其特点即:输入模块的输出端与数据采集模块的输入端相连,数据采集模块的输出端与预处理模块的输入端相连,预处理模块的输出端分别连接深度处理模块的输出端和传输模块的输出端。深度处理模块的输出端连接传输模块的输入端。传输模块的输出端连接数据比较模块的输入端。数据比较模块的输出端连接存储模块的输入端。2.根据权利要求1所述的基于大数据自动提取网页目标数据的系统,其特征在于,还包括监控模块、监控模块的输出端和数据采集模块的输入端终端连接,监控模块实时监控数据采集过程中的网络环境,避免在数据采集过程中浏览或输入非法网站 ,影响数据采集的效率。3. 2.根据权利要求1所述的一种基于大数据的网页目标数据自动提取系统,其特征在于:所述输入模块用于输入目标数据或目标数据的相关特征和目标数据的限制因素,进行索引;数据模块用于根据目标数据或目标数据的相关特征以及目标数据的限制因素,对网页数据信息进行采集和提取。4.根据权利要求1所述的基于大数据的网页目标数据自动提取系统,其特征在于:所述预处理模块用于从数据中采集和提取数据采集模块网页数据信息为处理和提取价值;
5.根据权利要求1所述的一种基于大数据的网页目标数据自动提取系统,其特征在于: 传输模块用于传输预处理和深度处理完成的网页网络信息 数据比较模块用于传输将预处理模块和深度处理模块处理后的网页数据信息与输入的目标数据或目标数据的相关特征和目标数据的限制因素进行比较,并保持输入的目标数据或目标数据具有相似相关性的网络数据目标数据的特征及限制因素;存储模块用于存储输入的目标数据或与目标数据限制因素相似的网页数据信息。6. 2.根据权利要求1所述的基于大数据的网页目标数据自动提取系统,其特征在于:数据采集模块包括通用爬虫、聚焦爬虫、增量爬虫和深层爬虫,通用爬虫用于采集提取搜索引擎网页的数据信息,如(百度、搜狗、谷歌等)。7.根据权利要求1所述的基于大数据的网页目标数据自动提取系统,其特征在于:所述聚焦爬虫用于采集和提取特定领域或主题的网页数据信息,并增加体积爬虫用于采集和提取新生成或变化的网页数据信息,深度爬虫用于采集和提取需要登录才能访问和下载的网页数据信息。< @8.根据权利要求7所述的基于大数据的网页目标数据自动提取系统,其特征在于:通用爬虫、聚焦爬虫、增量爬虫和深度爬虫独立运行,通用爬虫爬虫、聚焦爬虫、增量爬虫和深度爬虫采集到的网页数据信息,都发送到预处理模块。9.根据权利要求8所述的一种基于大数据的网页目标数据自动提取系统,其主要步骤为: s1:将目标数据或目标数据相关特征和目标数据限制因素输入输入模块,增量爬虫和深度爬虫相互独立运行,一般爬虫将爬虫、聚焦爬虫、增量爬虫和深度爬虫采集到的网页数据信息都发送到预处理模块。9.根据权利要求8所述的一种基于大数据的网页目标数据自动提取系统,其主要步骤为: s1:将目标数据或目标数据相关特征和目标数据限制因素输入输入模块,增量爬虫和深度爬虫相互独立运行,一般爬虫将爬虫、聚焦爬虫、增量爬虫和深度爬虫采集到的网页数据信息都发送到预处理模块。9.根据权利要求8所述的一种基于大数据的网页目标数据自动提取系统,其主要步骤为: s1:将目标数据或目标数据相关特征和目标数据限制因素输入输入模块,
数据采集模块根据输入的目标数据或目标数据的相关特征以及目标数据的限制因素,对网页数据进行采集提取;s2:数据采集模块采集的网页数据信息由预处理单元Extraction进行处理和取值,预处理后的网页数据信息由传输模块发送至数据比对模块。如果预处理后的网页数据信息达到客户期望的结果,则最终由存储模块进行存储;s3:如果预处理后的网页数据信息没有达到客户预期的结果,则将预处理后的网页数据信息发送到高级处理模块,高级处理模块对预处理后的网页数据信息进行处理并提取值。高级处理模块处理的网页数据信息由传输模块发送到数据比较模块,最后由存储模块存储。
技术总结
本发明涉及网页目标数据提取技术领域,公开了一种基于大数据的网页目标数据自动提取系统,包括输入模块、数据模块、预处理模块、深度处理模块、传输模块、数据模块与存储模块相比,输入模块的输出端连接数据模块的输入端。该装置结构简单,设计新颖,便于在数据采集过程中实时监控网络环境,避免网页数据在信息采集过程中输入非法网站影响效率。采集信息,防止采集到的信息外泄。预处理模块和高级处理模块对网页数据的价值进行不同程度的处理和提取,便于参考网页数据处理针对不同的客户需求和信息量进行处理,提高工作效率,方便采集并从不同维度提取网页数据信息,提高信息的综合性采集,适合广泛推广。适合广泛推广。适合广泛推广。便于从不同维度采集和提取网页数据信息,提高信息的综合性采集,适合广泛推广。适合广泛推广。适合广泛推广。便于从不同维度采集和提取网页数据信息,提高信息的综合性采集,适合广泛推广。适合广泛推广。适合广泛推广。
技术研发人员:尹娜
受保护的技术用户:
<p>技术研发日:2021.0