网站内容采集系统( 本发明自动化采集网页数据的系统及方法-乐题库)

优采云发布时间: 2021-10-17 13:03

　　网站内容采集系统(

本发明自动化采集网页数据的系统及方法-乐题库)

　　本发明涉及网站数据采集技术领域，尤其涉及一种采集网页数据自动化的系统及方法。

　　背景技术：

　　目前在互联网上抓取网页数据的方式主要是通过调度器（爬虫）下载互联网上的网页并输入到数据库中。根据具体的计算方法，对数据库中的信息进行采集聚合、分类。计算方法分为深度优先和广度优先。比如百度的蜘蛛爬虫就是采用这种爬取网页数据的方式。这种抓取网页数据的方法可以自动从大量网页中获取数据。但是由于爬虫数据爬取策略的普遍性，无法准确处理特定网页的数据，或者对特定网页进行特殊处理，尤其是税务网站数据无法准确采集@ >.

　　技术实现要素：

　　本发明的目的是为了解决现有技术存在的不足，提出一种采集网页数据自动化的系统和方法。

　　为实现上述目的，本发明采用以下技术方案：

　　一种采集网页数据自动化系统，包括嵌入式浏览器、api接口、脚本引擎模块和流程控制模块。api接口、脚本引擎模块、流程控制模块分别嵌入在Embedded浏览器中。嵌入式浏览器采用ie内核或chrome内核，或其他浏览器内核。

　　优选地，脚本引擎模块用于加载js脚本；js 脚本收录用于操作网页的自定义 js 函数。网页数据加载到电脑内存后，js脚本加载到脚本引擎模块，用于在当前页面的内存地址执行自定义js函数，支持网页数据采集进程.

　　优选地，进程控制模块用于携带和执行批处理命令，执行预先配置的数据采集进程；

　　优选地，批处理命令为点击查询按钮、页面跳转或网页数据采集。

　　优选地，脚本引擎模块和进程控制模块的组合还用于模拟用户在登录受限网页上输入用户名和密码，模拟用户的点击行为，并通过登录验证。（如何实现）

　　根据本发明的另一方面，还提供了一种采集网页数据的自动化方法，包括以下步骤：

　　步骤s10：平台数据库发出指定数据请求采集；

　　步骤s20：登录等待采集网站：嵌入式浏览器接收到指定数据采集请求并访问指定等待采集网站，成功后接收访问页面加载事件，同时获取页面加载后的内存地址；

　　步骤s30：加载js脚本：脚本引擎模块加载当前页面的js脚本，在当前页面的内存地址执行自定义js函数；

　　步骤s40：执行预配置数据采集流程：流程控制模块根据预配置流程执行批处理命令，并按照批处理执行流程逐步执行，到预配置页面采集来指定数据；

　　步骤s50：上传采集结果：将采集中的指定数据通过网络上传到平台数据库。

　　优选地，在步骤s20中，当指定的采集网站有登录限制时，脚本引擎模块和流程控制模块模拟用户输入用户名和密码，并模拟用户的点击行为, 通过登录验证。

　　与现有技术相比，本发明具有以下有益效果：

　　（1）在嵌入式浏览器的基础上增加了脚本引擎模块和进程控制模块，结合以上两个模块实现对指定网页和采集的自动访问。具体的流程可通过流程控制模块进行定制，页面采集的内容适用于特定网页数据的精确处理或特定网页的特殊处理，尤其是税务网站数据可以精准采集;是实现采集流程定制和采集内容定制；

　　（2）对于有登录限制的网页，可以使用脚本引擎模块和进程控制模块来模拟用户输入用户名和密码，模拟用户点击行为，通过登录验证自动化数据采集 .

　　图纸说明

　　图1为本发明实施例一的自动化采集网页数据系统*敏*感*词*；

　　图2为本发明实施例一提供的一种采集网页数据自动化方法的流程图。

　　其中，1-嵌入式浏览器，2-api接口，3-脚本引擎模块，4-进程控制模块。

　　详细方法

　　为了对本发明的目的、结构、特征和功能有进一步的了解，下面结合实施例进行详细说明。

　　实施例一：请参见图1。图1为本发明实施例一提供的自动化采集网页数据系统*敏*感*词*，以及本发明实施例一提供的自动化采集网页数据系统*敏*感*词*。本发明系统，包括嵌入式浏览器1、api接口2、脚本引擎模块3和进程控制模块4，api接口2和脚本引擎模块3、进程控制模块4被嵌入嵌入式浏览器 1、本发明的自动化采集网页数据系统结合脚本引擎模块3和进程控制模块4，共同实现对指定网页和指定数据采集的访问。

　　优选地，脚本引擎模块3用于加载js脚本；js脚本中收录了一个自定义的js函数，用于操作一个网页，网页的执行需要js脚本的解释和执行；当网页数据加载到电脑内存时，js脚本加载到脚本引擎模块3中，用于在当前页面的内存地址执行自定义js函数，支持网页数据采集 @> 过程。脚本引擎模块3使得本发明的自动化采集网页数据系统具有在当前页面的内存地址中执行自定义js函数的能力。脚本引擎模块3可以在网页加载完成后获取当前页面的内存。地址，

　　优选地，进程控制模块4用于携带和执行批处理命令，执行预先配置的数据采集进程；其中，批处理命令为查询按钮的点击、页面跳转或网页数据采集，每个命令可以是查询按钮的点击、页面跳转或网页数据的采集。传统的自动化采集系统只是按照固定的采集算法批量批量处理采集页面数据，而不能对不同的页面进行不同的特殊处理。本发明的流程控制模块4支持流程自定义控制，支持采集内容的任意定制，具有很强的灵活性，尤其是在准确的采集税务网站数据方面，具有无与伦比的优势好处。

　　传统的自动化采集系统无法采集有登录限制的网页数据，具有更大的局限性。本发明的脚本引擎模块3和进程控制模块4的组合还用于模拟用户在登录受限网页上输入用户名和密码，模拟用户的点击行为，并通过登录验证.

　　实施例二：根据本发明的另一方面，还提供了一种采集网页数据的自动化方法。请参考图2，图2为本发明实施例一自动化的采集网页数据。本发明方法流程图，本发明实施例一中的采集网页数据自动化方法包括以下步骤：

　　步骤s10：平台数据库发出指定数据请求采集；

　　步骤s20：登录等待采集网站：嵌入式浏览器1收到指定数据采集请求并访问指定等待采集网站，成功后接收访问页面加载事件，同时获取页面加载后的内存地址；

　　步骤s30：加载js脚本：脚本引擎模块3加载当前页面的js脚本，并在当前页面的内存地址中执行自定义js函数；

　　步骤s40：执行预配置数据采集流程：流程控制模块4根据预配置流程执行批处理命令，并按照批处理执行流程逐步执行，到预配置页面采集指定数据；

　　步骤s50：上传采集结果：将采集中的指定数据通过网络上传到平台数据库。

　　优选地，在步骤s20中，当指定的等待采集网站有登录限制时，脚本引擎模块3和过程控制模块4模拟用户输入用户名和密码，模拟用户点击行为，并通过登录验证。

　　实施例三：本发明的采集网页数据自动化系统及方法应用场景广泛。客户提供的账户信息登录*敏*感*词*网站，采集相关财税数据信息，获取客户的税务基本信息和财务信息网站，并提供为智慧财税服务提供数据支持。为客户提供自动化报税、风险评估等多种增值服务。

　　接下来以采集Tax网站的数据为例介绍应用的工作流程。

　　第一步：内嵌浏览器访问tax网站，访问成功后接收页面加载事件，同时获取页面加载后的内存地址。

　　第二步：通过脚本引擎加载当前页面的js脚本。脚本引擎让我们能够在当前页面的内存地址中执行自定义的js函数。

　　第三步：通过流程控制（预配置流程）模块执行批处理命令，按照批处理执行流程一步步执行。进入预配置（指定）页面采集元素数据，实现自定义流程。

　　第四步：采集到指定数据，通过互联网上传到公司平台数据库。

　　在：

　　脚本引擎：加载js脚本的程序模块，网页的执行需要由js脚本解释执行。js脚本中收录了各种自定义js函数供我们操作网页。该文件存储在硬盘中。网页加载到内存时，js脚本文件同时加载到脚本引擎模块中，执行各种自定义js函数，支持采集进程。

　　过程控制模块：主要用于承载和执行批处理命令。每条命令可能是点击查询按钮，也可能是页面跳转，也可能是采集页面上的数据。

　　本发明的自动化采集网页数据系统在嵌入式浏览器1的基础上增加了脚本引擎模块3和进程控制模块4，结合以上两个模块实现对指定网页的自动访问和< @采集，通过进程控制模块4，可以自定义特定页面上采集的内容，适用于特定网页数据的精确处理或特定网页的特殊处理，特别是税务网站数据可以准确采集；采集流程定制，可实现采集内容定制；对于有登录限制的网页，本发明使用脚本引擎模块3和过程控制模块4，可以模拟用户输入用户名和密码，

　　已经通过上述相关实施例对本发明进行了描述，但上述实施例只是用于实施本发明的示例。需要指出的是，所公开的实施例并不限制本发明的范围。相反，在不脱离本发明的精神和范围的情况下所作的任何改动和修改，均属于本发明的专利保护范围。

0

2021-10-17

网站内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集系统( 本发明自动化采集网页数据的系统及方法-乐题库)

0 个评论

发起人

AI时代内容工厂

网站内容采集系统( 本发明自动化采集网页数据的系统及方法-乐题库)

0 个评论

发起人

相关问题