一种自动化采集网页数据的系统及方式技术方案

优采云发布时间: 2020-08-30 08:46

　　本发明专利技术提供一种自动化采集网页数据的系统及方式，该系统包括嵌入式浏览器、API接口、脚本引擎模块和流程控制模块，结合脚本引擎模块和流程控制模块共同实现对指定网页的访问和指定数据采集。脚本引擎模块促使本发明专利技术的自动化采集网页数据的系统具有在当前页面的内存地址中执行自定义的JS函数的能力，在网页加载完成后就能获取当前页面的内存地址，并借助JS脚本模拟用户的各类点击操作，流程控制模块可以定做具体页面上的采集内容，适用于对具体网页的数据进行精确处理或则是针对具体网页进行特殊处理，特别是对于税务网站的数据才能进行精确采集；可以实现采集流程自定义、采集内容自定义。

　　A system and method of collecting web data automatically

　　The invention provides a system and method for automatically collecting web page data, which comprises an embedded browser, an API interface, a script engine module and a process control module. The script engine module enables the system of automatic 采集 of web page data of the invention to execute the customized JS function in the memory address of the current page. After the web page is loaded, the memory address of the current page can be obtained, and the JS script is used to simulate various click operations of the user. The process control module can customize the 采集 content on the specific page, which is applicable to the specific page The data of the web page can be accurately processed or specially processed for the specific web page, especially for the data of the tax website; the 采集 process can be customized and the 采集 content can be customized.

　　全部详尽技术资料下载

　　【技术实现步骤摘要】

　　一种自动化采集网页数据的系统及技巧

　　本专利技术涉及网站数据采集

　　，尤其涉及一种自动化采集网页数据的系统及技巧。

　　技术介绍

　　目前互联网上抓取网页数据的方法主要是通过一种调度程序（爬虫）在互联网上下载网页，并录入数据库中，根据特定估算方法对数据库的信息进行采集、汇总、归类，其估算方法分为深度优先和广度优先形式。应用这种抓取网页数据的形式的如百度的蜘蛛爬虫，此类抓取网页数据的方法可以手动大批量的从网页中获取数据。但是，由于爬虫的数据爬取策略具有普适性，无法针对具体网页的数据进行精确处理、或者是针对具体网页进行特殊处理，特别是对于税务网站的数据难以进行精确采集。

　　技术实现思路

　　本专利技术的目的是为了解决现有技术中存在的缺点，而提出的一种自动化采集网页数据的系统及技巧。为实现上述目的，本专利技术采用了如下技术方案：一种自动化采集网页数据的系统，包括嵌入式浏览器、API接口、脚本引擎模块和流程控制模块，所述API插口与所述脚本引擎模块、所述流程控制模块分别嵌入所述嵌入式浏览器中。嵌入式浏览器采用IE内核或Chrome内核，或其他浏览器内核。优选地，所述脚本引擎模块用于加载JS脚本；所述JS脚本收录操作网页的自定义JS函数，当网页数据加载到计算机显存中后，所述JS脚本加载到所述脚本引擎模块中，用来在当前页面的内存地址中执行所述自定义JS函数，支撑网页数据采集过程。优选地，所述流程控制模块用于承载并执行批处理的命令，执行预配置的数据采集流程；优选地，所述批处理的命令为查询按键的点击、页面的跳转或则是网页数据的采集。优选地，所述脚本引擎模块和所述流程控制模块结合上去还用于在登入限制的网页页面模拟用户输入用户名和密码，模拟用户点击行为，通过登入验证。（具体怎么实现）根据本专利技术的另一面，还提供一种自动化采集网页数据的方式，包括以下步骤：步骤S10：平台数据库下发指定数据采集请求；步骤S20：登录待采集网站：嵌入式浏览器接收指定数据采集请求并访问指定的待采集网站，访问成功后接收到页面加载风波，同时获取页面加载完成后的内存地址；步骤S30：加载JS脚本：脚本引擎模块为当前页面加载JS脚本，在当前页面的内存地址中执行自定义JS函数；步骤S40：执行预配置的数据采集流程：流程控制模块按照预配置的流程执行批处理命令，按照批处理的执行流程逐渐执行，到预配置的页面采集指定数据；步骤S50：上传采集结果：将采集到的指定数据通过网路上传至所述平台数据库。

　　优选地，所述步骤S20中，当指定的待采集网站有登录限制时，所述脚本引擎模块和所述流程控制模块模拟用户输入用户名和密码，模拟用户点击行为，通过登入验证。与现有技术相比，本专利技术的有益疗效为：（1）在嵌入式浏览器基础上降低了脚本引擎模块和流程控制模块，结合上述两个模块共同实现对指定网页的自动化访问和采集，通过流程控制模块可以定做具体页面上的采集内容，适用于对具体网页的数据进行精确处理或则是针对具体网页进行特殊处理，特别是对于税务网站的数据才能进行精确采集；可以实现采集流程自定义、采集内容自定义；（2）针对存在登入限制的网页页面，利用脚本引擎模块和流程控制模块可以模拟用户输入用户名和密码，模拟用户点击行为，通过登入验证，进行自动化数据采集。附图说明图1为本专利技术施行例1的一种自动化采集网页数据的系统的*敏*感*词*；图2为本专利技术施行例1的一种自动化采集网页数据的方式的流程图。其中，1-嵌入式浏览器，2-API接口，3-脚本引擎模块，4-流程控制模块。具体施行方法为让对本专利技术的目的、构造、特征、及其功能有进一步的了解，兹配合施行例详尽说明如下。实施例1：请参见图1，图1为本专利技术施行例1的一种自动化采集网页数据的系统的*敏*感*词*，本专利技术施行例1的一种自动化采集网页数据的系统，包括嵌入式浏览器1、API接口2、脚本引擎模块3和流程控制模块4，API接口2与脚本引擎模块3、流程控制模块4分别嵌入嵌入式浏览器1。

　　本专利技术的自动化采集网页数据的系统结合脚本引擎模块3和流程控制模块4共同实现对指定网页的访问和指定数据采集。优选地，脚本引擎模块3用于加载JS脚本；JS脚本收录操作网页的自定义JS函数，对网页的执行动作须要JS脚本解释执行；当网页数据加载到计算机显存中后，JS脚本加载到脚本引擎模块3中，用来在当前页面的内存地址中执行自定义JS函数，支撑网页数据采集过程。脚本引擎模块3促使本专利技术的自动化采集网页数据的系统具有在当前页面的内存地址中执行自定义的JS函数的能力，脚本引擎模块3在网页加载完成后就能获取当前页面的内存地址，并借助JS脚本模拟用户的各类点击操作，采集dom元素(即Web页面上的对象及元素)上的内容。优选地，流程控制模块4用于承载并执行批处理的命令，执行预配置的数据采集流程；其中，批处理的命令为查询按键的点击、页面的跳转或则是网页数据的采集，每一条命令可能是一次查询按键的点击，或者一次页面的跳转，或者是网页数据的采集。传统的自动化采集系统只是按照固定的采集算法去批量采集页面数据，但是未能针对不同的页面进行不同的特殊处理，本专利技术的流程控制模块4支持流程自定义控制，支持任意订制采集内容，具有较强的灵活性，特别是在精确采集税务网站数据方*敏*感*词*有无可比拟的优势。

　　传统的自动化采集系统未能采集存在登入限制的网页页面的数据，具有较大的局限性。本专利技术的脚本引擎模块3和流程控制模块4结合上去还用于在登入限制的网页页面模拟用户输入用户名和密码，模拟用户点击行为，通过登陆验证。实施例2：根据本专利技术的另一面，还提供一种自动化采集网页数据的方式，请参见图2，图2为本专利技术施行例1的一种自动化采集网页数据的方式的流程图，本专利技术施行例1的一种自动化采集网页数据的方式包括以下步骤：步骤S10：平台数据库下发指定数据采集请求；步骤S20：登录待采集网站：嵌入式浏览器1接收指定数据采集请求并访问指定的待采集网站，访问成功后接收到页面加载风波，同时获取页面加载完成后的内存地址；步骤S30：加载JS脚本：脚本引擎模块3为当前页面加载JS脚本，在当前页面的内存地址中执行自定义JS函数；步骤S40：执行预配置的数据采集流程：流程控制模块4按照预配置的流程执行批处理命令，按照批处理的执行流程逐渐执行，到预配置的页面采集指定数据；步骤S50：上传采集结果：将采集到的指定数据通过网路上传至平台数据库。优选地，步骤S20中，当指定的待采集网站有登录限制时，脚本引擎模块3和流程控制模块4模拟用户输入用户名和密码，模拟用户点击行为，通过登陆验证。实施例3：本专利技术的自动化采集网页数据的系统及技巧应用场景广泛，例如可以应用于采集税务网站的网页数据，为顾客提供智能财税服务，利用顾客提供的帐号信息登陆税局网站，采集相关的财税数据信息，获取顾客在税务网站上的基本信息和财务信息，为智能财税服务提供数据支撑，为顾客

　　【技术保护点】

　　1.一种自动化采集网页数据的系统，其特点在于：包括嵌入式浏览器、API接口、脚本引擎模块和流程控制模块，所述API插口与所述脚本引擎模块、所述流程控制模块嵌入所述嵌入式浏览器中。/n

　　【技术特点摘要】

　　1.一种自动化采集网页数据的系统，其特点在于：包括嵌入式浏览器、API接口、脚本引擎模块和流程控制模块，所述API插口与所述脚本引擎模块、所述流程控制模块嵌入所述嵌入式浏览器中。

　　2.如权力要求1所述的自动化采集网页数据的系统，其特点在于：所述脚本引擎模块用于加载JS脚本；所述JS脚本收录操作网页的自定义JS函数，当网页数据加载到计算机显存中后，所述JS脚本加载到所述脚本引擎模块中，用来在当前页面的内存地址中执行所述自定义JS函数，支撑网页数据采集过程。

　　3.如权力要求1所述的自动化采集网页数据的系统，其特点在于：所述流程控制模块用于承载并执行批处理的命令，执行预配置的数据采集流程。

　　4.如权力要求3所述的自动化采集网页数据的系统，其特点在于：所述批处理的命令为查询按键的点击、页面的跳转或则是网页数据的采集。

　　5.如权力要求1所述的自动化采集网页数据的系统，其特点在于：所述脚本引擎模块和所述流程控制模块结合上去还用于在登入限制...

　　【专利技术属性】

　　技术研制人员：李沁，李娜，

　　申请(专利权)人：南京云帐房网络科技*敏*感*词*，

　　类型：发明

　　国别省市：江苏;32

　　全部详尽技术资料下载我是这个专利的主人

0

2020-08-30

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

一种自动化采集网页数据的系统及方式技术方案

0 个评论

发起人

AI时代内容工厂

一种自动化采集网页数据的系统及方式技术方案

0 个评论

发起人

相关问题