:多来源网站的数据自动采集系统及其方法
优采云 发布时间: 2021-03-23 01:02
:多来源网站的数据自动采集系统及其方法
[0001]
本发明涉及计算机网络领域,尤其涉及一种多源网站数据自动采集系统和方法。
背景技术:
[0002]
随着大数据时代的到来,大数据服务对数据采集,分析和显示提出了新的要求和挑战。目前,一般的技术解决方案大多是针对单个网站进行爬网,并将统一的规则与固定数据进行匹配。它具有开发工作量大,适应范围小,添加和修改新功能困难以及可移植性差的特点。*敏*感*词*设计的方法对销售人员的专业能力和开发经验有很高的要求,劳动量大,开发周期长。 ,增加了公司的运营成本和人工成本,特别是在开发过程中添加新功能,修改错误以及以后的运维,这带来了繁重的工作量并花费了宝贵的时间。
[0003]
对于具有高度相似性的网站,需要人工工作,编程和匹配规则,并且缺少智能分析方法以及现有工作和经验的使用。统计结果的统计信息需要人工检查结果,缺乏科学的统计信息,分析和预测方法才能显示结果以及采集流程的干预,使用了更多的代码级干预,这很难做到变化并易于引入干扰。
技术实现要素:
[0004]
本申请公开了一种实现智能采集的多源网站自动数据采集系统及其方法,具有多种访问网页的方式,灵活的解析方法,少量的代码以及快速的爬网。
[0005]
为了达到上述目的,本申请采用的技术方案如下:
[0006]
多源网站自动数据采集系统,包括原创数据库,特征提取模块,特征数据库,数据获取模块,最终数据库和可视化界面;原创数据库用于存储原创数据;特征提取模块,用于从原创数据库中提取特征数据。特征数据库用于存储特征数据;数据获取模块,用于从特征数据库中获取目标数据;最终数据库用于存储目标数据;可视化界面用于显示数据采集和分析结果,以及修改和编辑数据采集的中间参数。
[0007]
优选地,存储在原创数据库中的数据包括原创特征信息,模板信息,网页转向信息,url信息和url示例信息。
[0008]
特征数据库中存储的数据的数据类型最好包括post-html,post-json,get-html和get-json。
[0009]
本申请还公开了一种多源网站自动数据采集方法,适用于上述多源网站自动数据采集系统,步骤包括:
[0010]
(a)将网页信息输入原创数据库;
[0011]
(b)通过特征提取模块自动清除和分析原创数据库中的数据,并将提取的网页的信息和关键特征存储在特征数据库中;
[0012]
(c)请求网页:模块自动生成网页请求的网址和参数,以获取网页内容;
[0013]
(d)网页分析:解析请求网页步骤后返回的网页内容,网页解析模块解析项目
名称,发布时间和项目的超链接,并智能处理超链接并自动补充不完整的部分以生成完整的链接;
[0014]
(e)目标由数据采集模块选择并存储在最终数据库中;
[0015]
(f)通过可视界面显示操作状态,统计分析和数据输入状态。
[0016]
优选地,在步骤(c)中,所请求的网页的类型包括:get类型和post类型;当所述网页请求为get类型时,通过比较所述网页的连续3个页面的链接,并比较分析所述变化信息,确定所述网页的翻页代码和规则,动态生成各页面的链接,进行分段处理。当页面请求为post type时,通过比较页面的变化,确定页面的变化规则和post-type参数的变化规则作为响应,并为数据的每个页面生成访问规则。
[0017]
最好在步骤(d)中,返回的网页类型包括html和json。
[0018]
优选地,在步骤(f)中,可视界面还用于编辑和修改中间参数。该应用程序通过构造原创数据库,特征数据库,最终数据库和可视化界面,并具有多种访问方法和灵活的解析方法,少量的代码,快速的爬网,修改和添加新功能,从而实现了网站数据采集的智能化。那些。功能方便简单,后续维护方便高效;设置的可视界面是采集过程的人工干预,为修改配置和指导学习提供了便利。它可以直观地显示统计和分析结果,效果直观,适用于数据管理和研究。提供舒适性。
图纸说明
[0019]
图1是本发明的系统结构*敏*感*词*;
[0020]
图2是本发明方法的流程图。
具体的实现方法
[0021]
如图1所示,一个多源网站自动数据采集系统,包括原创数据库,特征提取模块,特征数据库,数据获取模块,最终数据库和可视化界面;从原创特征提取模块中,将数据库提取的特征数据存储在特征数据库中;数据获取模块从特征数据库获取数据并将其存储在最终数据库中;可视化界面用于显示数据采集和分析结果,还用于修改和编辑数据采集的中间参数。
[0022]
其中,存储在原创数据库中的数据包括原创特征信息,模板信息,翻页信息,URL信息和URL示例信息;存储在特征数据库中的数据的数据类型包括post-html,post-json,get-html和get-json。
[0023]
下面结合图2解释多源网站数据自动采集方法的工作流程:
[0024]
(a)进入原创数据库:原创数据库收录尽可能多的信息,以促进后处理需求,例如原创特征信息,模板信息,翻页信息,URL信息和URL示例;根据固定的标准和格式,统一快速地输入,适用于短时间,大批量和快速地输入。
[0025]
(b)原创数据库中的数据由特征提取模块自动清除和分析,提取的网页的信息和关键特征存储在特征数据库中:特征数据库的存储类型包括: html,post-json和get-html和get-json。
[0026]
(c)请求网页时,模块自动生成网页请求的url和参数,并获取网页的内容:所请求网页的类型分为get类型和post类型。当网页请求为获取类型时,比较连续3页的页面。对链接进行分段处理,通过比较分析确定网页的翻页代码和规则,并动态生成每个页面的链接;当网页请求为帖子类型时,通过将网页的更改与意见发送的帖子参数进行比较来确定网页的更改。响应而生成更改规则和post-type参数的更改规则,以为数据的每一页生成访问规则。
[0027]
(d)网页解析,网页解析模块需要解析项目的名称,发布时间和项目的超链接,特征提取模块处理超链接以补充不完整的部分以生成一个完整链接:解析请求的网页后返回的网页,返回的网页分为两种:html和json。当返回的网页为html类型时,根据表中输入的商品信息的标题,时间和xpath路径,提取网页中商品的标题xpath和发布时间。路径的特征信息,提取项目的超链接;当返回的网页为json类型时,可以根据特征数据库中存储的特征直接提取目标信息。
[0028]
(e)数据获取模块过滤目标并将其保存在最终数据库中:对于输入信息中的超链接,将自动提取链接规则,拼写并完成链接,并正常完成链接已生成,该链接是通过链接网页内容或网页截图获取的,并将结果发送到最终数据库进行存储。
[0029]
(f)通过可视界面显示操作状态,统计分析和数据输入状态:整个过程可以显示在可视界面上。此外,可视界面还可以供用户在此过程中修改或编辑参数。
[0030]
示例1
[0031]
以下以中标信息为例:
[0032]
原创数据库中存储的项目包括标题,分类,行业,总内容,标题1、时间1、标题2、时间2和省。标头存储城市名称,网站存储网站名称,类别列存储出价,中标,评标,合格候选人和流动投标等信息,行业列存储房屋,市政当局,工程水利,土地交易和产权。国有信息和其他信息,对于输入的少于3页的所有数据项,对于3页或更多的数据,请输入链接的前3页或输入任意连续的三页链接。 “总内容”列存储网页的正文文本的xpath路径,其中存储了获奖项目的详细信息。 Title 1是项目列表中第一项标题文本的xpath路径,time 1列是项目列表中第一项标题文本的发布时间; title 2列是项目列表路径中第二个项目的标题文本的xpath,time 2是项目列表中第二个项目的标题文本的发布时间,Province列记录了城市所在的省份。其中,为了存储标题和时间,在本实施例中,以第一项和第二项为例进行存储,但是还可以选择其他两项,例如第二和第三项,或者第一和第二项。第四个。
[0033]
首先,特征提取模块自动清除并分析原创数据库中的数据,并将提取的信息和网页的关键特征保存到特征数据库中。
[0034]
请求网页时,模块自动生成网页请求的URL和参数以获取网页内容。
[0035]
接下来,分析网页,分析项目的名称,发布时间和项目的超链接,并且特征提取模块处理超链接以补充不完整的部分以生成完整的链接。例如,当网页为json类型时,可以根据特征数据库进行存储,直接提取目标信息。
[0036]
下一步是通过数据采集模块过滤目标,并将其存储在最终数据库中。即,对于输入的信息中的超链接,将自动提取链接规则,拼写并完成链接,并生成正常且完整的链接。通过链接获取网页内容或网页截图,并将结果发送到最终数据库进行存储。
[0037]
最后,通过可视界面显示操作状态,统计分析和数据输入状态。整个过程可以显示在可视界面上。此外,可视界面还可以供用户在此过程中修改或编辑参数。