SysNucleus WebHarvy(网页数据采集器)V6.0.1

优采云发布时间: 2020-08-14 02:43

　　SysNucleus WebHarvy(网页数据采集器)是还能帮助用户从网页中提取数据的工具。旨在让您可以手动从网页中提取数据，并保存在不同的格式提取内容。输入网址即可打开，默认使用内部浏览器，支持扩充剖析，可以手动获取类似链接的列表，软件界面直观操作简单。

　　功能

　　智能辨识模式

　　WebHarvy手动辨识网页中出现的数据模式。所以，如果你须要从一个网页刮项目(姓名，地址，电子邮件，价格等)的列表，你不需要做任何额外的配置。如果数据重复，WebHarvy会手动刮。

　　导出捕获的数据

　　可以保存从各类格式的网页中提取的数据。 WebHarvy网站刮板的当前版本容许你导入的刮数据作为XML，CSV，JSON或TSV文件。您还可以刮下数据导入到一个SQL数据库。

　　从多个页面提取

　　通常网页显示数据，如在多个页面中的产品目录。 WebHarvy可以手动抓取并从多个网页中提取数据。只是强调了“链接到下一页'和WebHarvy网站刮板将手动刮从所有页面的数据。

　　直观化的操作界面

　　WebHarvy是一个可视化的网页提取工具。其实完全没有必要编撰任何脚本或代码拿来提取数据。使用webharvy的外置浏览器浏览网页。您可以选择用滑鼠点击来提取数据。它是这么容易!

　　基于关键字的提取

　　基于关键字的提取可使您捕捉从搜索结果页面输入关键字的列表数据。您创建的配置将被手动重复所有给定输入关键字，而挖掘的数据。可以指定任意数目的输入关键字

　　提取分类

　　WebHarvy网站刮板容许您从一个链接列表，从而造成一个网站内的相像页面抽取数据。这让您可以使用一个单一的配置刮网站内的类别或小节。

　　使用正则表达式提取

　　WebHarvy可以应用正则表达式(正则表达式)在文本或网页的HTML源代码，并提取去匹配的部份。这种强悍的技术为您提供了更多的灵活性，同时拼抢的数据。

　　WebHarvy是一个视觉网路刮板。绝对不需要编撰任何脚本或代码来抓取数据。您将使用WebHarvy的外置浏览器浏览网页。您可以选择要点击的数据。这很容易！

　　WebHarvy手动辨识网页中发生的数据模式。因此，如果您须要从网页上刮取项目列表（名称，地址，电子邮件，价格等），则无需执行任何其他配置。如果数据重复，WebHarvy会手动删掉它。

　　您可以以多种格式保存从网页中提取的数据。WebHarvy Web Scraper的当前版本容许您将抓取的数据导入为Excel，XML，CSV，JSON或TSV文件。您也可以将抓取的数据导入到SQL数据库。

　　通常，网页在多个页面上显示产品列表等数据。WebHarvy可以手动抓取并从多个页面提取数据。只需强调“链接到下一页”，WebHarvy Web Scraper都会手动从所有页面中抓取数据。

0

2020-08-14

内容采集器

0 个评论

要回复文章请先登录或注册