智能识别模式WebHarvy自动识别网页中出现的数据模式教程

优采云发布时间: 2021-04-25 01:15

　　WebHarvy是一个非常易于使用且功能强大的应用程序，可以自动从网页中提取数据（文本，URL和图像），并以不同的格式保存提取的内容。

　　该软件为E文本，没有中文版本。如果E文字不好，请参阅此视频教程：

　　链接：密码：rt70

　　功能

　　视觉点和点击界面

　　WebHarvy是一个可视网页提取工具。实际上，无需编写任何脚本或代码来提取数据。使用webharvy的内置浏览器浏览网络。您可以选择单击鼠标提取数据。很简单！

　　智能识别模式

　　WebHarvy自动识别出现在网页中的数据模式。因此，如果您需要从网页上抓取项目列表（名称，地址，电子邮件，价格等），则无需进行任何其他配置。如果数据重复，WebHarvy将自动对其进行爬网。

　　导出捕获的数据

　　可以保存从网页提取的各种格式的数据。当前版本的WebHarvy 网站抓取工具允许您将抓取的数据导出为XML，CSV，JSON或TSV文件。您还可以将抓取的数据导出到SQL数据库。

　　从多个页面中提取

　　通常，网页在多个页面上显示数据，例如产品目录。 WebHarvy可以自动从多个网页爬网和提取数据。刚刚指出“链接到下一页”，WebHarvy 网站抓取工具将自动从所有页面抓取数据。

　　基于关键字的提取

　　基于关键字的提取使您可以捕获从搜索结果页面输入的关键字的列表数据。在挖掘数据时，将为所有给定的输入关键字自动重复创建的配置。您可以指定任意数量的输入关键字

　　代表{pass} {filter}从服务器中提取

　　要提取匿名信息并防止提取阻止网络软件的Web服务器，必须通过{pass} {filter}选项通过代理服务器访问目标网站。您可以使用一个代理服务器地址或代理服务器地址列表。

　　提取分类

　　WebHarvy 网站抓取器允许您从链接列表中提取数据，从而在网站中产生相似的页面。这样一来，您就可以使用单个配置来抓取网站中的类别或小节。

　　使用正则表达式提取

　　WebHarvy可以在网页的文本或HTML源代码中应用正则表达式（正则表达式），并提取匹配的部分。这项强大的技术为您提供了更大的灵活性，同时可以争夺数据。

0

2021-04-25

网站内容抓取工具

0 个评论

要回复文章请先登录或注册