snoopy php网页抓取工具(主流的爬虫Nutch开发语言：与Nutch比较：二者均为Java开源框架)

优采云发布时间: 2021-11-06 23:21

　　主流爬虫

　　纳奇

　　开发语言：Java

　　主页：

　　介绍：

　　Apache的子项目之一是Lucene项目下的子项目。

　　Nutch 是一个完整的网络搜索引擎解决方案，基于 Lucene，类似于 Google。基于Hadoop的分布式处理模型保证了系统的性能。类似Eclipse的插件机制保证了系统可以定制，并且很容易集成到自己的应用程序中。之中。

　　拉宾

　　开发语言：C++

　　主页：

　　介绍：

　　Larbin 是一个开源的网络爬虫/网络蜘蛛，由法国年轻人 Sébastien Ailleret 独立开发。larbin 的目的是能够跟踪页面的 URL 进行扩展抓取，最终为搜索引擎提供广泛的数据源。

　　larbin只是一个爬虫，也就是说larbin只爬网页，如何解析是用户自己做的。此外，larbin 没有提供有关如何将其存储在数据库中和构建索引的信息。

　　latbin 最初的设计也是基于设计简单但可配置性高的原则，所以我们可以看到，一个简单的 larbin 爬虫每天可以获取 500 万个网页，非常高效。

　　赫里特克斯

　　开发语言：Java

　　主页：

　　与纳奇相比：

　　两者都是 Java 开源框架。Heritrix 是 SourceForge 上的开源产品，Nutch 是 Apache 的子项目。他们都被称为网络爬虫。它们的实现原理基本一致：深度遍历网站在本地捕获这些资源，使用的方法是分析每个有效的URI网站，并提交一个Http请求得到相应的结果，生成本地文件和相应的日志信息等。

　　Heritrix 是一个“档案爬虫”——用于获取网站内容的完整、准确、深层副本。包括获取图片等非文字内容。抓取并存储相关内容。不拒绝任何内容，不对页面进行任何内容修改。重新抓取不会替换同一 URL 的前一次抓取。通过Web用户界面启动、监控和调整爬虫，可以灵活定义获取URL。

　　两者的区别：

　　Nutch 只获取和保存可索引的内容。Heritrix 接受这一切。力求保留页面的原创外观。

　　Nutch 可以修剪内容，或转换内容格式。

　　Nutch 以数据库优化的格式保存内容以备将来索引；刷新并替换旧内容。而 Heritrix 正在添加（追加）新的内容。

　　Nutch 是从命令行运行和控制的。Heritrix 有一个网页控制管理界面。

　　Nutch 的定制能力还不够强大，但现在已经改进了。Heritrix 可以控制更多的参数。

　　Heritrix 提供的功能没有 nutch 多，感觉就像从整个站点下载一样。既没有索引也没有解析，即使是重复爬取网址也不是很好。

　　Heritrix 功能强大，但是配置起来有点麻烦。

　　其他爬虫

　　网络学习

　　WebLech 是一个强大的网站下载和镜像工具。支持根据功能需求下载网站，并尽可能模仿标准网页浏览器的行为。WebLech 有功能控制台，使用多线程操作。

　　阿拉蕾

　　Arale 主要是为个人使用而设计的，不像其他爬虫那样专注于页面索引。Arale 可以下载整个网站或网站上的部分资源。Arale 还可以将动态页面映射到静态页面。

　　J-蜘蛛

　　J-Spider：是一个完全可配置和可定制的 Web Spider 引擎。可以用它来检查网站错误（内部服务器错误等），网站内外链接检查，分析网站的结构（可以创建一个网站@ > map)，下载整个网站，也可以写一个JSpider插件扩展你需要的功能。

　　主轴

　　Spindle 是一个建立在 Lucene 工具包上的 Web 索引/搜索工具。它包括一个用于创建索引的 HTTP 蜘蛛和一个用于搜索这些索引的搜索类。主轴项目提供了一组JSP标签库，让那些基于JSP的站点无需开发任何Java类就可以添加搜索功能。

　　蛛形纲动物

　　Arachnid：是一个基于 Java 的网络蜘蛛框架。它收录一个简单的 HTML 解析器，可以分析收录 HTML 内容的输入流。通过实现Arachnid子类，可以开发一个简单的网络蜘蛛，可以在每一个网站中使用解析一个页面后，添加几行代码调用。Arachnid 下载包中收录两个蜘蛛应用程序示例，用于演示如何使用该框架。

　　警报器

　　LARM 可以为 Jakarta Lucene 搜索引擎框架的用户提供纯 Java 搜索解决方案。它收录索引文件、数据库表和用于索引网站的爬虫的方法。

　　乔博

　　JoBo 是一个用于下载整个网站的简单工具。它本质上是一个网络蜘蛛。与其他下载工具相比，它的主要优点是能够自动填写表单（如自动登录）和使用cookies来处理会话。JoBo 还具有灵活的下载规则（如：URL、大小、MIME 类型等）来限制下载。

　　snoics-爬行动物

　　snoics -reptile 是用纯 Java 开发的。它是用于捕获网站图像的工具。您可以使用配置文件中提供的 URL 条目来传输所有可以通过浏览器 GET 的网站。这种方式获取的所有资源都是本地抓取的，包括网页和各类文件，如图片、flash、mp3、zip、rar、exe等文件。整个网站可以完全转移到硬盘上，保持原有的网站结构准确不变。只需将捕获到的网站放入Web服务器（如Apache）即可实现完整的网站镜像。

　　网络收获

　　Web-Harvest 是一个 Java 开源 Web 数据提取工具。它可以采集指定的网页并从这些网页中提取有用的数据。Web-Harvest主要使用XSLT、XQuery、正则表达式等技术来实现text/xml的操作。

　　蜘蛛侠

　　Spiderpy 是一个基于 Python 编码的开源网络爬虫工具，允许用户采集文件和搜索网站，并具有可配置的界面。

　　蜘蛛网网络 Xoops Mod 团队

　　pider Web Network Xoops Mod 是 Xoops 下的一个模块，完全由 PHP 语言实现。

　　蜘蛛侠

　　Hispider 是一种快速、高性能的蜘蛛，速度快

　　严格来说只能是蜘蛛系统的框架。没有详细的要求。目前只能提取URL、URL重复、异步DNS解析、队列任务、支持N机分布式下载、支持网站定向下载（（需要配置hispiderd.ini白名单）。

　　特点及用途：

　　基于unix/linux系统开发

　　异步 DNS 解析

　　URL 重新加权

0

2021-11-06

snoopy php网页抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

snoopy php网页抓取工具(主流的爬虫Nutch开发语言：与Nutch比较：二者均为Java开源框架)

0 个评论

发起人

AI时代内容工厂

snoopy php网页抓取工具(主流的爬虫Nutch开发语言：与Nutch比较：二者均为Java开源框架)

0 个评论

发起人

相关问题