网页表格抓取(技术一种可配置化的数据解析方法和网页解析)

优采云 发布时间: 2022-03-07 08:18

  网页表格抓取(技术一种可配置化的数据解析方法和网页解析)

  本发明专利技术涉及一种可配置的数据解析方法,包括以下步骤:解析配置;现场配置;创建空白逻辑表,并将各个字段名写入空白逻辑表;抓取URL对应的URL 对于目标网页,根据解析类型和解析属性提取数据对象,然后依次映射到逻辑表中,与字段名形成对应关系,从而转换目标网页结构化数据文本。本发明的专利技术是一种可配置的数据解析方法。通过配置解析表,可以灵活处理不同格式的网页,完成网页解析,将网页数据转化为结构化数据文本,

  一种可配置的数据分析方法和计算机可读存储介质

  下载所有详细的技术数据

  【技术实现步骤总结】

  一种可配置的数据解析方法及计算机可读存储介质

  本专利技术涉及一种可配置的数据分析方法及计算机可读存储介质,属于互联网数据爬取领域。

  技术介绍

  互联网上的信息复杂,信息的类型和表达方式多种多样。显示的信息只是为了方便用户浏览,不是统一的结构化数据显示,所以不考虑机器识别。但是,由于计算机不具备自然语言或类人阅读能力,互联网网页的信息载体所显示的信息不易被计算机识别和分析。在过去的IT技术发展中,积累了大量基于结构化数据的挖掘和分析技术。对于从互联网上抓取的网页的非结构化数据,我们需要先将其从结构化数据中进行转换,以方便机器学习。标识,以方便后续业务单位使用。公开号为CN108959539A的专利技术专利《一种基于规则的可配置网页数据分析方法》公开了网页分析方法如下: S3.网页分析:获取Web中任务配置配置的分析信息,获取采集网页的列表信息进行数据解析,通过Python的BeautifulSoup库解析页面;解析时,根据页面上配置的HTML标签,按标签类型和值提取数据及相关标签;解析结束然后,将数据存入数据库。公开的技术方案使用Python的BeautifulSoup库来解析页面文本数据,但是这种方法有以下两个缺点:1、Python的BeautifulSoup库只能解析HTML或XML格式的文件,并且支持的类型有限,比如不能支持Json格式的网页进行解析;2、Python的BeautifulSoup库是一种封装模式,而对于不同格式的网页一、,它对网页的灵活性有明显的适应作用还不够,尤其是对于一些非常规的特殊处理的网页,或者当用户选择性地过滤过滤相关数据时,封装模式似乎不合适。

  技术实现思路

  为了解决上述技术问题,专利技术提供了一种可配置的数据分析方法,将捕获的目标网页转换为标准化的结构化数据文本,便于信息的应用和挖掘。该专利技术的第一个技术方案如下:一种可配置的数据解析方法,包括以下步骤:创建解析配置页面,并配置URL、解析类型、解析属性以及保存数据的逻辑表名称解析结果,配置完成后选择提交保存;解析属性包括解析区域和行定位信息,或者解析属性只包括行定位信息;创建一个新的字段配置页面,并在字段配置页面配置必填字段提取的数据对象对应的字段名称;根据逻辑表名称创建一个空白逻辑表,并将每个字段名称写入空白逻辑表;抓取URL对应的目标网页,根据分析类型和分析属性提取数据对象,具体步骤如下:根据解析区域定位待提取数据对象所在区域,然后定位根据行定位信息,从解析区域中提取出待提取数据对象所在的行区域,从这些行中一一提取数据对象,然后依次映射到逻辑表中,与数据对象形成对应关系字段名称,从而将目标网页转换为结构化数据文本;或者只根据行定位信息区域定位待提取数据对象所在的行,从这些行中逐一提取数据对象,然后依次映射到逻辑表中,与字段名称,从而将目标网页转换为结构化数据文本。

  更优选地,字段配置还包括配置字段标识,数据分析方法执行以下步骤:新建分析配置页面,配置待爬取目标网页的URL、分析类型、分析属性、以及分析配置页面的分析配置页面信息。保存解析结果的逻辑表名称,配置完成后选择提交保存;解析属性包括解析区域和行定位信息,或者解析属性只包括行定位信息;新建一个字段配置页面,在字段配置页面配置需要的字段提取的数据对象对应的字段名称;根据逻辑表名称创建空白逻辑表,并在空白逻辑表中写入字段名称和对应的字段标识;抓取该URL对应的目标网页,根据解析类型和解析属性提取数据对象,具体步骤如下:根据解析区域定位要提取的数据对象所在的区域,然后根据行定位信息在解析区域中定位待提取数据对象所在的行区域,读取字段配置信息中的字段标识,定位这些行中的字段标识,字段标识对应的属性值是要提取的数据对象,并将提取的字段标识符对应的数据对象写入字段名的取值范围内,依次类推,将解析区的所有字段标识符一一遍历,将所有要提取的数据对象写入逻辑表,并与字段名形成对应关系,从而转换目标网页或根据行定位信息定位待提取数据对象所在行区域,从字段配置信息中读取字段标识,定位这些行中的字段标识符,与字段标识符对应的属性值就是要提取的数据对象。将提取的数据对象写入到字段标识对应的字段名的value字段中,以此类推,一一遍历所有的字段标识,并写入所有需要提取的数据对象。进入逻辑表,并与字段名称形成对应关系,从而将目标网页转换为结构化的数据文本。

  更优选地,分析区域的配置包括表格区域标识、表格起始索引和表格结束索引,根据表格起始索引定位分析区域开头的表格区域标识位置,表格区域根据表尾索引定位分析区域的末尾。确定位置。更优选地,行定位信息包括行区域标识、行起始索引和行结束索引,根据行起始索引定位解析区域开头的表区域标识位置,行区域标识位于根据行停止索引定位解析区域的末端。地点。更优选地,目标网页的解析类型为HTMLBYHEAD,解析属性还包括标题定位信息,标题定位信息包括标题行标识、标题行索引和标题列标识,HTMLBYHEAD A类型为在着陆页的表格上方有标题的页面。本专利技术还提供了一种计算机可读存储介质。本专利技术方案二是一种计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时,执行以下步骤:创建新的解析配置页面,以及在解析配置页面URL、解析类型、解析属性和用于保存解析结果的逻辑表的名称上配置要爬取的目标网页,完成后提交;解析属性包括解析区域和行定位信息,或者解析属性只包括行定位信息;新建字段配置页面,在字段配置页面配置逻辑表中每个字段的字段名,每个字段名对应要提取的数据对象;根据逻辑表名创建空白逻辑表,将每个字段名写入空白逻辑表,每个字段的排序与解析时数据对象的提取顺序一致;抓取URL对应的目标网页,根据解析类型和解析属性提取数据对象。具体步骤如下:根据解析区域定位要提取的数据对象所在的区域,然后根据行定位信息从分析区域中定位出要提取的数据对象所在的行区域,将这些行中的数据对象一一提取出来,然后依次映射到逻辑表中,所有形成上述字段名称的对应关系,从而将目标网页转换为结构化数据文本;或者根据行定位信息定位要提取的数据对象所在的行区域,将这些行中的数据对象一一提取出来,然后映射到逻辑表中,与字段形成对应关系名称,以便将目标网页转换为结构化数据文本。将这些行中的数据对象一一提取出来,依次映射到逻辑表中,都形成上述字段名的对应关系,从而将目标网页转化为结构化的数据文本;或者根据行定位信息定位要提取的数据对象所在的行区域,将这些行中的数据对象一一提取出来,然后映射到逻辑表中,与字段形成对应关系名称,以便将目标网页转换为结构化数据文本。将这些行中的数据对象一一提取出来,依次映射到逻辑表中,都形成上述字段名的对应关系,从而将目标网页转化为结构化的数据文本;或者根据行定位信息定位要提取的数据对象所在的行区域,将这些行中的数据对象一一提取出来,然后映射到逻辑表中,与字段形成对应关系名称,以便将目标网页转换为结构化数据文本。

  更优选地,字段配置还包括配置字段标识,数据分析方法执行以下步骤:新建分析配置页面,配置待爬取目标网页的URL、分析类型、分析属性、以及分析配置页面的分析配置页面信息。保存解析结果的逻辑表名,完成后提交;解析属性包括解析区域和/或行定位信息;新建字段配置页面,在字段配置页面配置逻辑表中各个字段的字段名称和字段标识;根据逻辑表名创建一个空白逻辑表,并在空白逻辑表中写入各个字段名称和对应的字段标识符;抓取该URL对应的目标网页,根据解析类型和解析属性提取数据对象,具体步骤如下:根据解析区域定位待提取数据对象所在的区域,然后根据行定位信息在解析区域中定位待提取数据对象所在行区域,从字段配置信息中读取字段标识,定位在这几行

  【技术保护点】

  1.一种可配置的数据解析方法,其特征在于包括以下步骤:新建一个解析配置页面,并配置URL、解析类型、解析属性,以及保存解析结果的逻辑表名,配置完成后,选择提交并保存;解析属性包括解析区域和行定位信息,或者解析属性只包括行定位信息;新建一个字段配置页面,在字段配置页面配置需要的字段提取的数据对象对应的字段名称;根据逻辑表名称创建一个空白逻辑表,并将每个字段名称写入空白逻辑表;抓取URL对应的目标网页,根据分析类型和分析属性提取数据对象,具体步骤如下:根据解析区域定位待提取数据对象所在区域,然后定位待提取数据对象所在行区域根据行定位信息从解析区定位,并从这些行中一一提取数据对象,然后依次映射到逻辑表中,与字段名形成对应关系,从而转换目标网页页面转换为结构化数据文本;或者只根据行定位信息区域定位待提取数据对象所在的行,从这些行中逐一提取数据对象,然后依次映射到逻辑表中,与字段名称,

  【技术特点总结】

  1.一种可配置的数据解析方法,其特征在于包括以下步骤:新建一个解析配置页面,并配置URL、解析类型、解析属性,以及保存解析结果的逻辑表名,配置完成后,选择提交并保存;解析属性包括解析区域和行定位信息,或者解析属性只包括行定位信息;新建一个字段配置页面,在字段配置页面配置需要的字段提取的数据对象对应的字段名称;根据逻辑表名称创建一个空白逻辑表,并将每个字段名称写入空白逻辑表;抓取URL对应的目标网页,根据分析类型和分析属性提取数据对象,具体步骤如下:根据解析区域定位待提取数据对象所在区域,然后定位待提取数据对象所在行区域根据行定位信息从解析区定位,并从这些行中一一提取数据对象,然后依次映射到逻辑表中,与字段名形成对应关系,从而转换目标网页页面转换为结构化数据文本;或者只根据行定位信息区域定位待提取数据对象所在的行,从这些行中逐一提取数据对象,然后依次映射到逻辑表中,与字段名称,从而将目标网页转换为结构化数据文本。2.

  3.根据权利要求1所述的一种可配置的数据解析方法,其特征在于,所述解析区域的配置包括表区域标识、表起始索引和表结束索引,根据表起始索引索引定位表区域解析区域开头的标识位置,根据表格终止索引定位解析区域末尾的表格区域标识位置。4.根据权利要求1所述的可配置数据解析方法,其特征在于,所述行定位信息包括行区域标识、行开始索引和行结束索引。根据行起始索引定位解析区开头的表区标识位置,根据行终止索引定位解析区末尾的行区标识位置。5.根据权利要求1所述的一种可配置的数据解析方法,其特征在于,所述目标网页的解析类型为HTMLBYHEAD,解析属性还包括头部定位信息,表头部定位信息包括头部行标识、标题行索引和标题列标识符,HTMLBYHEAD类型是指目标网页中表格上方有标题的网页。6.计算机可读存储... 表头定位信息包括表头行标识、表头行索引和表头列标识,HTMLBYHEAD类型是指目标网页中表头在表上方的网页。6.计算机可读存储... 表头定位信息包括表头行标识、表头行索引和表头列标识,HTMLBYHEAD类型是指目标网页中表头在表上方的网页。6.计算机可读存储...

  【专利技术性质】

  技术研发人员:邱涛、邱水文、陈成乐、

  申请人(专利权)持有人:,

  类型:发明

  国家、省、市:福建,35

  下载所有详细的技术数据 我是该专利的所有者

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线