自动采集网页数据的系统,方法和过程

优采云 发布时间: 2020-08-05 20:06

  

  本发明涉及网站数据采集技术领域,尤其涉及一种自动采集网页数据的系统和方法.

  背景技术:

  当前,在Internet上捕获网页数据的主要方法是通过调度程序(爬网程序)在Internet上下载网页并将其输入数据库. 数据库中的信息将根据特定的计算方法进行采集,汇总和分类. 计算方法分为深度优先和宽度优先. 例如,百度的Spider搜寻器使用这种方法来爬行网页数据. 这种爬取网页数据的方法可以自动从网页中大量获取数据. 但是,由于爬网程序的数据爬网策略是通用的,因此无法准确地处理特定网页上的数据或对特定网页进行特殊处理,尤其是对于税务网站数据.

  技术实现要素:

  本发明的目的是解决现有技术的不足,提出一种自动采集网页数据的系统和方法.

  为了达到上述目的,本发明采用以下技术方案:

  一种用于自动采集网页数据的系统,包括嵌入式浏览器,api接口,脚本引擎模块和过程控制模块. api接口,脚本引擎模块和过程控制模块分别嵌入在嵌入式浏览器中. 嵌入式浏览器使用内核或chrome内核或其他浏览器内核.

  最好,脚本引擎模块用于加载js脚本; js脚本收录用于操作网页的自定义js函数,并且当网页数据加载到计算机内存中时,js脚本会加载到脚本引擎中. 该模块用于在自定义js的内存地址中执行自定义js函数. 当前页面以支持网页数据采集过程.

  优选地,所述过程控制模块用于承载并执行批处理命令并执行预先配置的数据采集过程;

  最好,批处理命令是单击查询按钮,跳转页面或采集网页数据.

  优选地,脚本引擎模块和过程控制模块的组合还用于模拟用户在登录受限网页上输入的用户名和密码,模拟用户的点击行为,并通过登录验证. (如何实现)

  根据本发明的另一方面,还提供了一种自动采集网页数据的方法,包括以下步骤:

  步骤s10: 平台数据库发出指定的数据采集请求;

  步骤s20: 登录待采集网站: 嵌入式浏览器接收到指定的数据采集请求并访问指定的待采集网站. 访问成功后,将接收页面加载事件,并在页面加载后获取内存地址;

  步骤s30: 加载js脚本: 脚本引擎模块加载当前页面的js脚本,并在当前页面的内存地址中执行自定义js函数;

  步骤s40: 执行预先配置的数据采集过程: 过程控制模块根据预先配置的过程执行批处理命令,并根据批处理执行过程逐步执行,并采集指定的数据在预先配置的页面上;

  步骤s50: 上传采集结果: 将采集到的指定数据通过网络上传到平台数据库.

  优选地,在步骤s20中,当待采集的指定网站存在登录限制时,脚本引擎模块和过程控制模块模拟用户输入的用户名和密码,模拟用户的点击行为,并通过登录验证.

  与现有技术相比,本发明的有益效果是:

  (1)在嵌入式浏览器的基础上增加了脚本引擎模块和过程控制模块,并将以上两个模块结合在一起,实现了对指定网页的自动访问和采集. 特定页面上的采集可以通过过程控制模块内容进行自定义,适用于特定页面上数据的精确处理或特定页面的特殊处理,尤其是税收网站上数据的精确采集;采集过程的定制化和采集内容的实现;

  (2)对于具有登录限制的网页,脚本引擎模块和过程控制模块可用于模拟用户输入的用户名和密码,模拟用户的点击行为以及通过登录进行自动数据采集验证.

  图纸说明

  图1是根据本发明实施例1的自动采集网页数据的系统的*敏*感*词*;

  图. 图2是根据本发明实施例一的自动采集网页数据的方法的流程图.

  其中包括1个嵌入式浏览器,2个API界面,3个脚本引擎模块,4个过程控制模块.

  具体的实现方法

  为了进一步理解本发明的目的,结构,特征和功能,结合实施例提供以下详细描述.

  实施方式1: 请参照图1. 图1是根据本发明实施方式1的网页数据自动采集系统的*敏*感*词*. 根据本发明的实施例1的用于自动采集网页数据的系统包括嵌入式嵌入式浏览器1,api接口2,脚本引擎模块3和过程控制模块4,api接口2,脚本引擎模块3,本发明的网页数据自动采集系统结合脚本引擎模块3和过程控制模块4,共同实现对指定网页和指定页面的访问. 数据采集.

  优选地,脚本引擎模块3用于加载js脚本; js脚本收录用于操作网页的自定义js函数,并且网页的执行需要js脚本来解释和执行;当将网页数据加载到计算机内存中时,将js脚本加载到脚本引擎模块3中,以在当前页面的内存地址中执行自定义js功能,以支持网页数据采集过程. 脚本引擎模块3使本发明的用于自动采集网页数据的系统能够在当前页面的存储器地址中执行定制的js功能. 脚本引擎模块3可以在加载网页后获取当前页面的内存地址,并使用js脚本模拟用户的各种点击操作,并采集dom元素(即dom上的object和element)上的内容. 网页).

  优选地,过程控制模块4用于承载并执行批处理命令,并执行预先配置的数据采集过程;其中,批处理命令是单击查询按钮,页面跳转或网页数据采集,每个命令可以是单击查询按钮,页面跳转或网页数据采集. 传统的自动采集系统仅根据固定的采集算法分批采集页面数据,而不能对不同页面执行不同的特殊处理. 本发明的过程控制模块4支持过程定制控制,支持任意的定制采集内容,具有更多的优点. 强大的灵活性,特别是在准确采集税收网站数据方*敏*感*词*有无与伦比的优势.

  传统的自动采集系统无法在具有登录限制的网页上采集数据,这具有很大的限制. 本发明的脚本引擎模块3和过程控制模块4的组合还用于模拟用户在登录受限网页上输入用户名和密码,模拟用户的点击行为,并通过登录验证

  实施方式2: 根据本发明的另一方面,还提供了一种用于自动采集网页数据的方法. 请参考图1. 请参考图2,其为本发明实施例一提供的网页数据自动采集方法的流程图. 本发明实施例一提供的网页数据自动采集方法包括以下步骤:

  步骤s10: 平台数据库发出指定的数据采集请求;

  步骤s20: 登录待采集网站: 嵌入式浏览器1接收到指定的数据采集请求,并访问指定的待采集网站. 访问成功后,它将接收页面加载事件,并在页面加载后获得内存地址;

  步骤s30: 加载js脚本: 脚本引擎模块3加载当前页面的js脚本,并在当前页面的内存地址中执行自定义js函数;

  步骤s40: 执行预先配置的数据采集过程: 过程控制模块4根据预先配置的过程执行批处理命令,并根据批处理执行过程逐步执行,并采集预先配置的页面上的指定数据;

  步骤s50: 上传采集结果: 通过网络将采集到的指定数据上传到平台数据库.

  优选地,在步骤s20中,当待采集的指定网站具有登录限制时,脚本引擎模块3和过程控制模块4模拟用户的用户名和密码输入,模拟用户的点击行为,并通过登录验证.

<p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线