java抓取网页数据(18款Java开源Web爬虫，需要的小伙伴们赶快收藏)

优采云发布时间: 2021-09-19 09:05

　　网络爬虫（也称为网络蜘蛛、网络机器人，在FOAF社区中更常被称为网络追踪器）是一种程序或脚本，根据特定规则自动获取万维网信息。其他不常用的名称包括蚂蚁、自动索引、模拟器或蠕虫

　　今天，我们将介绍18个Java开源网络爬虫。让我们快点把它们收起来

　　一,

　　赫里特里克斯

　　Heritrix是由Java开发的开源web爬虫程序。用户可以使用它从互联网上获取所需的资源。其最大的特点是具有良好的可扩展性，方便用户实现自己的爬网逻辑

　　Heritrix是一个“归档爬虫”——用于获取站点内容的完整、准确和深入复制。包括获取图像和其他非文本内容。抓取并存储相关内容。内容不会被拒绝，页面内容也不会被修改。重新爬网不会用相同的URL替换以前的URL。爬虫主要通过web用户界面启动、监控和调整，允许灵活定义URL

　　Heritrix是一个多线程爬虫程序。主线程将任务分配给Teo线程（处理线程），每个Teo线程一次处理一个URL。Teo线程对每个URL执行一次URL处理程序链。URL处理器链包括以下五个处理步骤

　　预取链：主要做一些准备工作，比如延迟和重新处理处理，拒绝后续操作

　　提取链：主要下载网页，进行DNS转换，填写请求和响应表单

　　提取链：提取完成后，提取感兴趣的HTML和Java。通常，需要抓取新的URL

　　写入链：存储获取结果。在此步骤中，您可以直接进行全文索引。Heritrix提供了arcbuilder处理器的实现，该处理器以arc格式保存下载结果

　　提交链：与此URL相关的操作的最终处理。检查哪些新提取的URL在捕获范围内，然后将这些URL提交给frontier。DNS缓存信息也会更新

　　Heritrix系统框架

　　Heritrix处理URL

　　二,

　　韦伯斯菲克斯

　　Webshinx是一个用于Java类包和web爬虫的交互式开发环境。网络爬虫（也称为机器人或蜘蛛）是可以自动浏览和处理网页的程序。Webshinx由两部分组成：crawler平台和Webshinx类包

　　Webshinx用途：

　　可视显示的页面的集合

　　将页面下载到本地磁盘以进行脱机浏览

　　将所有页面拼接成一个页面，以便浏览或打印

　　根据特定规则从页面中提取文本字符串

　　用Java或Java开发自定义爬虫程序

　　有关详细信息，请参见~RCM/websphinx/

　　三,

　　韦布雷赫

　　WebLech是下载和镜像网站的强大工具。它支持根据功能需求下载网站，并尽可能模仿标准web浏览器的行为。WebLech具有功能性控制台和多线程操作

　　WebLech是一个强大的免费开源工具，用于下载和镜像网站。它支持根据功能需求下载网站，并尽可能模仿标准web浏览器的行为。WebLech具有功能性控制台和多线程操作

　　这个爬虫很简单。如果你是初学者，你可以把它作为入门参考。所以我选择用这种爬行动物开始我的研究。如果您不需要高性能的应用程序，也可以尝试。如果你想找到一个强大的，不要在WebLech上浪费时间

　　项目主页：

　　特点：

　　开源，免费

　　代码是用纯Java编写的，可以在任何支持Java的平台上使用

　　支持多线程下载网页

　　可以维护网页之间的链接信息

　　强大的可配置性：当以深度优先或宽度优先的方式抓取网页时，您可以自定义URL过滤器，以便根据需要抓取单个web服务器、单个目录或整个www网络。您可以设置URL的优先级，以便可以首先抓取感兴趣或重要的网页。您可以在断点处记录程序的状态，当您重新启动时，您可以继续爬网最后一次

　　四,

　　阿拉尔

　　Arale主要是为个人使用而设计的，而不像其他爬虫那样专注于页面索引。Arale可以下载整个网站或网站上的一些资源。Arale还可以将动态页面映射到静态页面

　　五,

　　杰斯皮德

　　Jspider是一个完全可配置和定制的web spider引擎。您可以使用它来检查网站错误（内部服务器错误等），检查网站内部和外部链接，分析网站结构（您可以创建网站地图），下载整个网站，并编写jspider插件来扩展您需要的功能

　　Spider是用Java实现的web Spider。jspider的执行格式如下：

　　jspider[ConfigName]

　　必须将协议名称添加到URL，例如：，否则将报告错误。如果省略configname，则使用默认配置

　　jspider的行为由配置文件专门配置。例如，在conf\[configname]\_目录中设置了使用的插件和结果存储方法。Jspider几乎没有默认的配置类型和用途。然而，jspider非常容易扩展，可以用来开发强大的网页捕获和数据分析工具。要做到这一点，您需要深入了解jspider的原理，然后根据自己的需要开发插件和编写配置文件

　　Jspider是：

　　一个高度可配置和定制的网络爬虫

　　根据LGPL开源许可证开发

　　100%纯java实现

　　您可以使用它来：

　　检查网站是否存在错误（内部服务器错误；…）

　　传出或内部链接检查

　　分析网站结构（创建站点地图；…）

　　下载翻新网站

　　通过编写jspider插件来实现任何函数

　　项目主页：

　　六,

　　纺锤

　　Spin是基于Lucene工具包构建的web索引/搜索工具。它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spin项目提供了一组JSP标记库，使基于JSP的站点能够在不开发任何Java类的情况下添加搜索功能

　　七,

　　蜘蛛纲

　　Arachnid是一个基于Java的网络蜘蛛框架。它收录一个简单的HTML解析器，可以分析收录HTML内容的输入流。通过实现arachnid的子类，它可以开发一个简单的web爬行器，并在解析web站点上的每个页面后添加几行代码调用。Arachnid的下载包收录两个spider应用程序示例来演示如何使用该框架

　　项目主页：

　　八,

　　云雀

　　Larm可以为雅加达Lucene搜索引擎框架的用户提供纯java搜索解决方案。它收录用于索引文件、数据库、表和用于索引网站的爬虫的方法

　　项目主页：

　　九,

　　若波

　　JOBO是下载整个网站的简单工具。它本质上是一个蜘蛛网。与其他下载工具相比，它的主要优点是可以自动填写表单（如自动登录）并使用cookie处理会话。JOBO还具有灵活的下载规则（如URL、大小、MIME类型等）来限制下载

　　十,

　　史努克爬行动物

　　它是用纯Java开发的用于网站图像捕获的工具。您可以使用配置文件中提供的URL条目来捕获浏览器可以通过get Local获取的所有网站资源，包括网页和各种类型的文件，如图片、flashmp3、Zip、rar、EXE等文件。整个网站可以完全传输到硬盘上，原创网站结构可以保持准确。只需将捕获的网站放入web服务器（如APACHE）即可实现完整的网站映像

　　由于在抓取过程中经常会出现一些错误的文件，而且无法正确解析很多Java控制的URL，snoics reply基本上可以通过提供接口和配置文件，自由扩展外部接口，为特殊URL注入配置文件，它可以正确解析和抓取所有网页

　　项目主页：

　　十一,

　　网络收获

　　WebHarvest是一个Java开源Web数据提取工具。它可以[url=https://www.ucaiyun.com/]采集指定的网页，并从这些网页中提取有用的数据。WebHarvest主要使用XSLT、XQuery和正则表达式等技术来操作文本/XML

　　WebHarvest是一个用Java编写的开源Web数据提取工具。它提供了一种从所需页面提取有用数据的方法。要实现这一点，您可能需要使用XSLT、XQuery和正则表达式等技术来操作文本/XML。WebHarvest主要关注基于HMLT/XML的页面内容，目前仍占大多数。另一方面，它可以通过编写自己的Java方法轻松地扩展其提取能力

　　Web harvest的主要目的是加强现有数据提取技术的应用。它的目标不是创建一种新方法，而是提供一种更好地使用和组合现有方法的方法。它提供了一组处理器来处理数据和控制数据

0

2021-09-19

java抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java抓取网页数据(18款Java开源Web爬虫，需要的小伙伴们赶快收藏)

0 个评论

发起人