WebHarvy会智能地识别数据模式自动识别网页中的应用

优采云发布时间: 2021-06-19 19:25

　　WebHarvy 网页采集老师汉化版是国外的采集工具，网站初出中文版，这个程序已经完成了90%，编辑受限网页的软件非常好用，功能强大的应用，可以自动从网页中提取数据（文本、网址和图片），并将提取的内容以不同的格式保存。

　　应用笔记

　　WebHarvy 是一个方便的应用程序，旨在使您能够自动从网页中提取数据并以不同格式保存提取的内容。 WebHarvy，从网页捕获数据就像导航到收录数据的页面并单击数据捕获一样简单。 WebHarvy 将智能识别网页上出现的数据模式。使用WebHarvy，可以从不同的网站，在不同的类别中提取数据，例如产品目录或搜索结果，例如房地产，电子商务，学术研究，娱乐，技术等。从网页中提取的数据可以以不同的格式保存。通常网页显示数据，例如多个页面上的搜索结果。 WebHarvy 可以自动从多个页面抓取和提取数据。

　　软件功能

　　WebHarvy 允许您分析网页上的数据

　　可以显示和分析来自 HTML 地址的连接数据

　　可以扩展到下一个网页

　　可以指定搜索数据的范围和内容

　　您可以下载并保存扫描的图像

　　支持浏览器复制链接搜索

　　支持配置对应的资源项搜索

　　可以按项目名称和资源名称搜索

　　特点

　　视觉点和点击界面

　　WebHarvy 是一个可视化网页提取工具。实际上，无需编写任何脚本或代码来提取数据。使用 WebHarvy 的内置浏览器浏览网页。您可以选择通过单击鼠标来提取数据。就是这么简单！

　　智能识别模式

　　自动识别出现在网页中的数据模式。因此，如果您需要从网页中抓取项目列表（姓名、地址、电子邮件、价格等），则无需进行任何额外配置。如果数据重复，WebHarvy 会自动抓取它。

　　导出捕获的数据

　　可以保存从各种格式的网页中提取的数据。当前版本的 WebHarvy网站scraper 允许您将抓取的数据导出为 XML、CSV、JSON 或 TSV 文件。您还可以将抓取的数据导出到 SQL 数据库。

　　从多个页面中提取

　　通常网页显示数据，例如多个页面上的产品目录。 WebHarvy 可以自动从多个网页中抓取和提取数据。刚刚指出“链接到下一页”，WebHarvy网站scraper 会自动从所有页面抓取数据。

　　基于关键字的提取

　　基于关键字的提取允许您捕获从搜索结果页面输入的关键字的列表数据。在挖掘数据时，您创建的配置将自动为所有给定的输入关键字重复。您可以指定任意数量的输入关键字

　　代表{pass}{filter}从服务器提取

　　要提取匿名，防止提取web服务器被网络软件拦截，必须通过{over}{filtering}服务器的选项才能访问目标网站。您可以使用单个代理服务器地址或代理服务器地址列表。

　　提取分类

　　WebHarvy网站scraper 允许您从链接列表中提取数据，从而在网站中生成类似的页面。这允许您使用单个配置在网站中抓取类别或小节。

　　使用正则表达式提取

　　WebHarvy 可以在网页的文本或 HTML 源代码中应用正则表达式（regular expressions），并提取匹配的部分。这项强大的技术可让您在争夺数据的同时获得更大的灵活性。

　　外链搜索教程（附 WebHarvy 建议采集tools）

0

2021-06-19

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

WebHarvy会智能地识别数据模式自动识别网页中的应用

0 个评论

发起人