WebHarvy网页采集大师汉化版

优采云发布时间: 2020-08-14 23:45

　　WebHarvy网页采集大师汉化版是一个美国采集工具，网站首发汉化版本，本程序早已汉化了90%，对有限制的网页进行编辑的软件特别适于使用且功能强悍的应用,可以从网页手动抽取数据(文本,URL和图象)并且以不同的格式保存提取内容。

　　应用说明

　　WebHarvy是一个便捷的应用程序致力让您能否手动从网页中提取数据并保存提取的内容在不同的格式。 WebHarvy,捕获数据从web页面一样容易导航到页面收录数据和点击数据捕获。WebHarvy会智能地辨识数据模式发生在web页面。使用WebHarvy,您可以提取数据,如产品目录或搜索结果从不同的网站,在不同的类别,如房地产、电子商务、学术研究、娱乐、技术等。从网页中提取的数据可以保存在不同的格式。通常web页面显示数据,如在多个页面的搜索结果。 WebHarvy可以手动爬行和提取数据从多个页面。

　　软件特征

　　WebHarvy可以使您剖析网页上的数据

　　可以显示从一个HTML地址上剖析联接数据

　　可以延展到下一个网页页面

　　可以指定搜索数据的范围以及内容

　　可以将扫描的图片下载保存

　　支持在浏览器上复制链接搜索

　　支持配置对应资源项目搜索

　　可以使用项目名称以及资源名称查找

　　功能特性

　　视觉点和点击界面

　　WebHarvy是一个可视化的网页提取工具。其实完全没有必要编撰任何脚本或代码拿来提取数据。使用WebHarvy的外置浏览器浏览网页。您可以选择用键盘点击来提取数据。它是这么容易！

　　智能辨识模式

　　自动辨识网页中出现的数据模式。所以，如果你须要从一个网页刮项目（姓名，地址，电子邮件，价格等）的列表，你不需要做任何额外的配置。如果数据重复，WebHarvy会手动刮。

　　导出捕获的数据

　　可以保存从各类格式的网页中提取的数据。 WebHarvy网站刮板的当前版本容许你导入的刮数据作为XML，CSV，JSON或TSV文件。您还可以刮下数据导入到一个SQL数据库。

　　从多个页面提取

　　通常网页显示数据，如在多个页面中的产品目录。 WebHarvy可以手动抓取并从多个网页中提取数据。只是强调了“链接到下一页'和WebHarvy网站刮板将手动刮从所有页面的数据。

　　基于关键字的提取

　　基于关键字的提取可使您捕捉从搜索结果页面输入关键字的列表数据。您创建的配置将被手动重复所有给定输入关键字，而挖掘的数据。可以指定任意数目的输入关键字

　　通过代{过}{滤}理服务器提取

　　提取匿名和避免提取网路软件被封锁的Web服务器，您必须通过代{过}{滤}理服务器访问目标网站的选项。可以使用一个单一的代{过}{滤}理服务器地址或代{过}{滤}理服务器的地址列表。

　　提取分类

　　WebHarvy网站刮板容许您从一个链接列表，从而造成一个网站内的相像页面抽取数据。这让您可以使用一个单一的配置刮网站内的类别或小节。

　　使用正则表达式提取

　　WebHarvy可以应用正则表达式（正则表达式）在文本或网页的HTML源代码，并提取去匹配的部份。这种强悍的技术为您提供了更多的灵活性，同时拼抢的数据。

　　外链搜刮教程（附WebHarvy建议采集工具）

0

2020-08-14

网站采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

WebHarvy网页采集大师汉化版

0 个评论

发起人

AI时代内容工厂

WebHarvy网页采集大师汉化版

0 个评论

发起人

相关问题