java抓取网页数据(18款Java开源Web爬虫,需要的小伙伴们赶快收藏)

优采云 发布时间: 2021-09-19 09:05

  java抓取网页数据(18款Java开源Web爬虫,需要的小伙伴们赶快收藏)

  网络爬虫(也称为网络蜘蛛、网络机器人,在FOAF社区中更常被称为网络追踪器)是一种程序或脚本,根据特定规则自动获取万维网信息。其他不常用的名称包括蚂蚁、自动索引、模拟器或蠕虫

  今天,我们将介绍18个Java开源网络爬虫。让我们快点把它们收起来

  一,

  赫里特里克斯

  Heritrix是由Java开发的开源web爬虫程序。用户可以使用它从互联网上获取所需的资源。其最大的特点是具有良好的可扩展性,方便用户实现自己的爬网逻辑

  Heritrix是一个“归档爬虫”——用于获取站点内容的完整、准确和深入复制。包括获取图像和其他非文本内容。抓取并存储相关内容。内容不会被拒绝,页面内容也不会被修改。重新爬网不会用相同的URL替换以前的URL。爬虫主要通过web用户界面启动、监控和调整,允许灵活定义URL

  Heritrix是一个多线程爬虫程序。主线程将任务分配给Teo线程(处理线程),每个Teo线程一次处理一个URL。Teo线程对每个URL执行一次URL处理程序链。URL处理器链包括以下五个处理步骤

  预取链:主要做一些准备工作,比如延迟和重新处理处理,拒绝后续操作

  提取链:主要下载网页,进行DNS转换,填写请求和响应表单

  提取链:提取完成后,提取感兴趣的HTML和Java。通常,需要抓取新的URL

  写入链:存储获取结果。在此步骤中,您可以直接进行全文索引。Heritrix提供了arcbuilder处理器的实现,该处理器以arc格式保存下载结果

  提交链:与此URL相关的操作的最终处理。检查哪些新提取的URL在捕获范围内,然后将这些URL提交给frontier。DNS缓存信息也会更新

  

  Heritrix系统框架

  

  Heritrix处理URL

  二,

  韦伯斯菲克斯

  Webshinx是一个用于Java类包和web爬虫的交互式开发环境。网络爬虫(也称为机器人或蜘蛛)是可以自动浏览和处理网页的程序。Webshinx由两部分组成:crawler平台和Webshinx类包

  Webshinx是一个用于Java类包和web爬虫的交互式开发环境。网络爬虫(也称为机器人或蜘蛛)是可以自动浏览和处理网页的程序。Webshinx由两部分组成:crawler平台和Webshinx类包

  Webshinx用途:

  可视显示的页面的集合

  将页面下载到本地磁盘以进行脱机浏览

  将所有页面拼接成一个页面,以便浏览或打印

  根据特定规则从页面中提取文本字符串

  用Java或Java开发自定义爬虫程序

  有关详细信息,请参见~RCM/websphinx/

  三,

  韦布雷赫

  WebLech是下载和镜像网站的强大工具。它支持根据功能需求下载网站,并尽可能模仿标准web浏览器的行为。WebLech具有功能性控制台和多线程操作

  WebLech是一个强大的免费开源工具,用于下载和镜像网站。它支持根据功能需求下载网站,并尽可能模仿标准web浏览器的行为。WebLech具有功能性控制台和多线程操作

  这个爬虫很简单。如果你是初学者,你可以把它作为入门参考。所以我选择用这种爬行动物开始我的研究。如果您不需要高性能的应用程序,也可以尝试。如果你想找到一个强大的,不要在WebLech上浪费时间

  项目主页:

  特点:

  开源,免费

  代码是用纯Java编写的,可以在任何支持Java的平台上使用

  支持多线程下载网页

  可以维护网页之间的链接信息

  强大的可配置性:当以深度优先或宽度优先的方式抓取网页时,您可以自定义URL过滤器,以便根据需要抓取单个web服务器、单个目录或整个www网络。您可以设置URL的优先级,以便可以首先抓取感兴趣或重要的网页。您可以在断点处记录程序的状态,当您重新启动时,您可以继续爬网最后一次

  四,

  阿拉尔

  Arale主要是为个人使用而设计的,而不像其他爬虫那样专注于页面索引。Arale可以下载整个网站或网站上的一些资源。Arale还可以将动态页面映射到静态页面

  五,

  杰斯皮德

  Jspider是一个完全可配置和定制的web spider引擎。您可以使用它来检查网站错误(内部服务器错误等),检查网站内部和外部链接,分析网站结构(您可以创建网站地图),下载整个网站,并编写jspider插件来扩展您需要的功能

  Spider是用Java实现的web Spider。jspider的执行格式如下:

  jspider[ConfigName]

  必须将协议名称添加到URL,例如:,否则将报告错误。如果省略configname,则使用默认配置

  jspider的行为由配置文件专门配置。例如,在conf\[configname]\_目录中设置了使用的插件和结果存储方法。Jspider几乎没有默认的配置类型和用途。然而,jspider非常容易扩展,可以用来开发强大的网页捕获和数据分析工具。要做到这一点,您需要深入了解jspider的原理,然后根据自己的需要开发插件和编写配置文件

  Jspider是:

  一个高度可配置和定制的网络爬虫

  根据LGPL开源许可证开发

  100%纯java实现

  您可以使用它来:

  检查网站是否存在错误(内部服务器错误;…)

  传出或内部链接检查

  分析网站结构(创建站点地图;…)

  下载翻新网站

  通过编写jspider插件来实现任何函数

  项目主页:

  六,

  纺锤

  Spin是基于Lucene工具包构建的web索引/搜索工具。它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spin项目提供了一组JSP标记库,使基于JSP的站点能够在不开发任何Java类的情况下添加搜索功能

  七,

  蜘蛛纲

  Arachnid是一个基于Java的网络蜘蛛框架。它收录一个简单的HTML解析器,可以分析收录HTML内容的输入流。通过实现arachnid的子类,它可以开发一个简单的web爬行器,并在解析web站点上的每个页面后添加几行代码调用。Arachnid的下载包收录两个spider应用程序示例来演示如何使用该框架

  项目主页:

  八,

  云雀

  Larm可以为雅加达Lucene搜索引擎框架的用户提供纯java搜索解决方案。它收录用于索引文件、数据库、表和用于索引网站的爬虫的方法

  项目主页:

  九,

  若波

  JOBO是下载整个网站的简单工具。它本质上是一个蜘蛛网。与其他下载工具相比,它的主要优点是可以自动填写表单(如自动登录)并使用cookie处理会话。JOBO还具有灵活的下载规则(如URL、大小、MIME类型等)来限制下载

  十,

  史努克爬行动物

  它是用纯Java开发的用于网站图像捕获的工具。您可以使用配置文件中提供的URL条目来捕获浏览器可以通过get Local获取的所有网站资源,包括网页和各种类型的文件,如图片、flashmp3、Zip、rar、EXE等文件。整个网站可以完全传输到硬盘上,原创网站结构可以保持准确。只需将捕获的网站放入web服务器(如APACHE)即可实现完整的网站映像

  由于在抓取过程中经常会出现一些错误的文件,而且无法正确解析很多Java控制的URL,snoics reply基本上可以通过提供接口和配置文件,自由扩展外部接口,为特殊URL注入配置文件,它可以正确解析和抓取所有网页

  项目主页:

  十一,

  网络收获

  WebHarvest是一个Java开源Web数据提取工具。它可以[url=https://www.ucaiyun.com/]采集指定的网页,并从这些网页中提取有用的数据。WebHarvest主要使用XSLT、XQuery和正则表达式等技术来操作文本/XML

  WebHarvest是一个用Java编写的开源Web数据提取工具。它提供了一种从所需页面提取有用数据的方法。要实现这一点,您可能需要使用XSLT、XQuery和正则表达式等技术来操作文本/XML。WebHarvest主要关注基于HMLT/XML的页面内容,目前仍占大多数。另一方面,它可以通过编写自己的Java方法轻松地扩展其提取能力

  Web harvest的主要目的是加强现有数据提取技术的应用。它的目标不是创建一种新方法,而是提供一种更好地使用和组合现有方法的方法。它提供了一组处理器来处理数据和控制数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线