网站自动采集发布系统( :一种多来源网站数据自动采集系统及其方法申请)

优采云 发布时间: 2022-01-31 07:04

  网站自动采集发布系统(

:一种多来源网站数据自动采集系统及其方法申请)

  

  [0001]

  本发明涉及计算机网络领域,具体涉及一种多源网站数据自动采集系统及其方法。

  背景技术:

  [0002]

  随着大数据时代的到来,大数据服务对数据的获取、分析和展示带来了新的需求和挑战。目前通用的技术方案大多是爬取单个网站,将固定的数据匹配统一的规则。具有开发工作量大、适配范围小、新增和修改新功能困难、可移植性差等特点。采用*敏*感*词*的设计方式,对业务员的专业能力和开发经验要求高,人工过多,开发周期长。,这增加了公司的运营成本和人工成本。尤其是在开发过程中添加新功能、修改错误、后期运维等工作量大,耗费宝贵的时间。

  [0003]

  对于相似度高的网站,需要人工、编程和匹配规则,缺乏智能分析方法和现有工作经验的运用。对于统计结果的统计,需要人工检查结果,缺乏科学的统计、分析和预测方法。对于结果的展示,以及采集进程的干预,往往采用代码级的干预,很难改变,也容易引入干扰。

  技术实施要素:

  [0004]

  本申请公开了一种多源网站数据自动化采集系统及其方法,实现了智能化采集,具有多种访问方式和灵活的分析方式,代码量少,可爬取迅速地。

  [0005]

  为实现上述目的,本申请所采用的技术方案如下:

  [0006]

  一种多源网站数据自动采集系统,包括原创数据库、特征提取模块、特征库、数据采集模块、最终数据库和可视化界面;原创数据库用于存储原创数据;特征提取模块用于从原创数据库中提取特征数据;特征数据库用于存储特征数据;数据采集​​模块用于从特征库中获取目标数据;最终的数据库用于存储目标数据;可视化界面用于显示数据采集和分析结果以及修改和编辑数据采集中间参数。

  [0007]

  优选地,所述原创数据库中存储的数据包括原创特征信息、模板信息、网页翻页信息、url信息和url示例信息。

  [0008]

  优选地,特征库中存储的数据的数据类型包括post-html、post-json、get-html和get-json。

  [0009]

  本申请还公开了一种多源网站自动数据采集方法,应用于上述多源网站数据自动采集系统,步骤包括:

  [0010]

  (a) 将网页信息输入原创数据库;

  [0011]

  (b) 特征提取模块对原创数据库的数据进行自动清洗和分析,将提取的网页信息和关键特征存储在特征库中;

  [0012]

  (c) 请求网页:模块自动生成网页请求的url和参数,获取网页内容;

  [0013]

  (d)网页解析:解析请求网页步骤后返回的网页内容,网页解析模块解析项目的

  项目名称、发布时间和超链接,智能处理超链接,自动补充不完整部分生成完整链接;

  [0014]

  (e) 数据采集模块选择目标并将其存储在最终数据库中;

  [0015]

  (f) 通过可视化界面显示操作、统计分析和数据输入。

  [0016]

  优选地,在步骤(c)中,请求网页的类型包括get类型和post类型。当网页请求为get类型时,通过对比网页连续三个页面的链接进行分段处理,对比分析变化信息,确定网页的翻页。代码和规则用于动态生成每个页面的链接;当网页请求为post类型时,通过比较网页的变化,确定网页的变化规则和post类型参数的变化规则,以及数据的每一页的访问规则被生成。

  [0017]

  优选地,在步骤(d)中,返回网页的类型包括html和json。

  [0018]

  优选地,在步骤(f)中,可视化界面还用于对中间参数进行编辑和修改。本应用通过构建原创库、特征库、最终库和可视化界面,实现网站数据采集的智能化,访问方式多样,分析方式灵活,代码量小,爬取速度快。,修改和增加新功能方便简单,后期维护方便高效;设置的可视化界面是采集过程的人工干预,为修改配置和指导学习提供了方便,可以直观的展示统计和分析结果。效果直观,为数据管理和研究提供便利。

  图纸说明

  [0019]

  图1为本发明的系统结构*敏*感*词*;

  [0020]

  如图。图2为本发明方法的流程图。

  详细说明

  [0021]

  如图1所示,多源网站数据自动化采集系统包括原创数据库、特征提取模块、特征库、数据采集模块、最终数据库和可视化界面;从原创数据库中提取的特征数据存储在特征库中;数据采集​​模块从特征库中获取数据并存入最终数据库;可视化界面用于显示数据采集和分析结果,以及修改和编辑数据采集中间参数。

  [0022]

  其中,原创数据库中存储的数据包括原创特征信息、模板信息、网页翻页信息、url信息和url样本信息;特征库中存储的数据的数据类型包括post-html、post-json、get-html和get-json。

  [0023]

  下面介绍多源网站数据自动采集方法的工作流程:

  [0024]

  (a) 输入原创数据库:原创数据库收录尽可能多的信息,以方便后处理需要,如原创特征信息、模板信息、网页翻页信息、url信息和url示例等信息;标准和格式统一快速录入,适合短时间、大批量、快速录入。

  [0025]

  (b) 特征提取模块对原数据库的数据进行自动清洗和分析,将提取的网页的信息和关键特征存储在特征库中:特征库存储的类型包括post-html、post -json、get-html 和 get-json。

  [0026]

  (c) 请求网页,模块自动生成网页请求的url和参数,获取网页内容:请求网页的类型分为get类型和post类型。分段处理,对比分析,确定网页的页码和规则,动态生成各个页面的链接;当网页请求为post类型时,通过比较网页的变化和评论发送的post参数确定网页的变化规则。响应post类型参数的变化规则,生成每页数据的访问规则。

  [0027]

  (d) 网页解析。网页解析模块需要解析项目名称、发布时间和项目的超链接。特征提取模块对超链接进行处理,补充不完整的部分,生成完整的链接:在请求的网页之后解析返回的网页,返回的网页分为html和json两种。当返回的网页为html类型时,根据表格中输入的商品信息的标题、时间、xpath路径,以及网页信息中提取商品标题和发布时间的xpath路径的特点,提取项目的超链接;当返回的网页为json类型时,可以根据特征库中存储的特征直接提取目标信息。

  [0028]

  (e) 数据采集模块对目标进行过滤并存入最终数据库:对于输入信息中的超链接,自动提取链接规则,拼写完成链接,生成正常完整的链接,并使用链接获取网页内容或网页截图和结果发送到最终数据库存储。

  [0029]

  (f) 通过可视化界面显示运行状态、统计分析和数据录入:整个过程可以在可视化界面上显示,用户也可以在可视化界面中修改或编辑过程中的参数。

  [0030]

  示例 1

  [0031]

  以下为中标信息示例:

  [0032]

  原创数据库中存储的项目包括标题、分类、行业、总内容、标题1、时间1、标题2、时间2、省份。表头存放城市名称,网站名称地点存放网站名称,类别栏存放投标、中标、评标、合格候选人、未中标等信息,行业栏存放房屋、市政、工程、水利、土地交易。对于产权、国有等信息,对于所有数据项少于3页、3页和3页以上的条目,输入前3页的链接或输入任意三个连续页的链接。总内容栏存储了网页正文的 xpath 路径,其中存储了获奖项目的详细信息。标题1为项目列表第一项的标题文本的xpath路径,时间1栏为项目列表第一项的标题文本的发布时间;title 2列是项目列表中第二项的标题文本的xpath Path,时间2是项目列表中第二项的标题文本的发布时间,省列记录城市所在的省份. 其中,对于标题和时间的存储,在本实施例中,以存储第一项和第二项为例,但也可以选择其他不同的项,例如第二项和第三项,或者第一项和第二项。第四。. title 2列是项目列表中第二项的标题文本的xpath Path,时间2是项目列表中第二项的标题文本的发布时间,省列记录城市所在的省份. 其中,对于标题和时间的存储,在本实施例中,以存储第一项和第二项为例,但也可以选择其他不同的项,例如第二项和第三项,或者第一项和第二项。第四。. title 2列是项目列表中第二项的标题文本的xpath Path,时间2是项目列表中第二项的标题文本的发布时间,省列记录城市所在的省份. 其中,对于标题和时间的存储,在本实施例中,以存储第一项和第二项为例,但也可以选择其他不同的项,例如第二项和第三项,或者第一项和第二项。第四。. 比如第二个和第三个,或者第一个和第四个。. 比如第二个和第三个,或者第一个和第四个。.

  [0033]

  首先,特征提取模块自动对原创数据库的数据进行清洗和分析,将提取的网页信息和关键特征存储到特征库中。

  [0034]

  请求网页时,模块自动生成网页请求的url和参数,获取网页内容。

  [0035]

  接下来解析网页,解析项目名称、发布时间和项目的超链接,并通过特征提取模块对超链接进行处理,补充不完整的部分,生成完整的链接。直接提取目标信息。

  [0036]

  下一步是通过数据采集模块过滤目标并存入最终数据库,即对于输入信息中的超链接,自动提取链接规则,拼写完成链接,生成正常完整的连接,并通过链接获取网页。内容或网页的屏幕截图被发送到最终数据库进行存储。

  [0037]

  最后通过可视化界面显示运行状态、统计分析和数据录入,整个过程都可以在可视化界面上展示。此外,用户还可以使用可视化界面来修改或编辑过程中的参数。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线