智能识别模式自动识别网页中出现的数据模式-WebHarvy
优采云 发布时间: 2021-03-21 23:24智能识别模式自动识别网页中出现的数据模式-WebHarvy
WebHarvy是一个功能强大的应用程序,旨在使您能够自动从网页提取数据并将提取的内容保存为不同的格式。从网页捕获数据就像导航到收录数据的页面并单击数据捕获一样,可以智能地识别网页上发生的数据模式。
[功能]
视觉点和点击界面
WebHarvy是一个可视网页提取工具。实际上,无需编写任何脚本或代码来提取数据。使用WebHarvy的内置浏览器浏览网络。您可以选择单击鼠标提取数据。很简单!
智能识别模式
自动识别网页中出现的数据模式。因此,如果您需要从网页上抓取项目列表(名称,地址,电子邮件,价格等),则无需进行任何其他配置。如果数据重复,WebHarvy将自动对其进行爬网。
导出捕获的数据
可以保存从网页提取的各种格式的数据。当前版本的WebHarvy 网站抓取工具允许您将抓取的数据导出为XML,CSV,JSON或TSV文件。您还可以将抓取的数据导出到SQL数据库。
从多个页面中提取
通常,网页在多个页面上显示数据,例如产品目录。 WebHarvy可以自动从多个网页爬网和提取数据。刚刚指出“链接到下一页”,WebHarvy 网站抓取工具将自动从所有页面抓取数据。
基于关键字的提取
基于关键字的提取使您可以捕获从搜索结果页面输入的关键字的列表数据。在挖掘数据时,将为所有给定的输入关键字自动重复创建的配置。您可以指定任意数量的输入关键字
代表{pass} {filter}从服务器中提取
要提取匿名信息并防止提取阻止了网络软件的Web服务器,您必须通过代理服务器访问目标网站选项。您可以使用一个代理服务器地址或代理服务器地址列表。
提取分类
WebHarvy 网站抓取器允许您从链接列表中提取数据,从而在网站中产生相似的页面。这样一来,您就可以使用单个配置来抓取网站中的类别或小节。
使用正则表达式提取
WebHarvy可以在网页的文本或HTML源代码中应用正则表达式(正则表达式),并提取匹配的部分。这项强大的技术为您提供了更大的灵活性,同时可以争夺数据。
[使用方法]
1、启动软件,提示并解锁,即,您需要先添加官方许可证文件,然后才能使用它
2、解压缩下载的文件,然后双击“ URET NFO v 2. 2. exe”。
3、提示您SysNucleus WebHarvy软件已获得SMR许可
4、导航至需要从中提取数据的网页。您可以使用内置的浏览器来加载和浏览网页
5、要捕获文本的一部分,请选择它并突出显示它。在选择以下选项之前,请确定所需的部分。
6、只需输入您分析的网页地址,顶部的URL是地址输入字段
7、输入一个地址,您可以直接在网页上打开它
8、选择配置功能,您可以单击第一个“开始配置”以开始配置Web数据下载计划。