java爬虫技术

优采云发布时间: 2020-06-27 08:00

　　htmlparse

　　jsoup

　　HeritrixNutch

　　java 抓取网页内容

　　爬虫

　　java 爬虫比较

　　Nutch

　　开发语言：Java

　　简介：

　　Apache的子项目之一，属于Lucene项目下的子项目。

　　Nutch是一个基于Lucene，类似Google的完整网路搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。

　　Larbin

　　开发语言：C++

　　简介

　　larbin是一种开源的网路爬虫/网路蜘蛛，由美国的年轻人 Sébastien Ailleret独立开发。larbin目的是能否跟踪页面的url进行扩充的抓取，最后为搜索引擎提供广泛的数据来源。

　　Larbin只是一个爬虫，也就是说larbin只抓取网页，至于怎样parse的事情则由用户自己完成。另外，如何储存到数据库以及完善索引的事情 larbin也不提供。

　　latbin最初的设计也是根据设计简单而且高度可配置性的原则，因此我们可以看见，一个简单的larbin的爬虫可以每晚获取５００万的网页，非常高效。

　　Heritrix

　　开发语言：Java

　　简介

　　与Nutch比较

　　和 Nutch。二者均为Java开源框架，Heritrix是 SourceForge上的开源产品，Nutch为Apache的一个子项目，它们都叫做网络爬虫/蜘蛛（ Web Crawler），它们实现的原理基本一致：深度遍历网站的资源，将这种资源抓取到本地，使用的技巧都是剖析网站每一个有效的URI，并递交Http请求，从而获得相应结果，生成本地文件及相应的日志信息等。

　　Heritrix是个 “archival crawler” — 用来获取完整的、精确的、站点内容的深度复制。包括获取图象以及其他非文本内容。抓取并储存相关的内容。对内容来者不拒，不对页面进行内容上的更改。重新爬行对相同的URL不针对原先的进行替换。爬虫通过Web用户界面启动、监控、调整，允许弹性的定义要获取的URL。

　　二者的差别：

　　Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原样

　　Nutch 可以修剪内容，或者对内容格式进行转换。

　　Nutch 保存内容为数据库优化格式以便之后索引；刷新替换旧的内容。而Heritrix是添加(追加)新的内容。

　　Nutch 从命令行运行、控制。Heritrix有 Web 控制管理界面。

　　Nutch 的订制能力不够强，不过现今早已有了一定改进。Heritrix可控制的参数更多。

　　Heritrix提供的功能没有nutch多，有点整站下载的气味。既没有索引又没有解析，甚至对于重复爬取URL都处理不是挺好。

　　Heritrix的功能强悍但是配置上去却有点麻烦。

　　其他网路爬虫介绍：

　　WebLech

　　WebLech是一个功能强悍的Web站点下载与镜像工具。它支持按功能需求来下载web站点并才能尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

　　Arale

　　Arale主要为个人使用而设计，而没有象其它爬虫一样是关注于页面索引。Arale才能下载整个web站点或来自web站点的个别资源。Arale能够够把动态页面映射成静态页面。

　　J-Spider

　　J-Spider:是一个完全可配置和订制的Web Spider引擎.你可以借助它来检测网站的错误(内在的服务器错误等),网站内外部链接检测java爬虫技术，分析网站的结构(可创建一个网站地图),下载整个Web站点，你还可以写一个JSpider插件来扩充你所须要的功能。

　　spindle

　　spindle 是一个建立在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这种索引的搜索类。spindle项目提供了一组JSP标签库促使这些基于JSP的站点不需要开发任何Java类能够够降低搜索功能。

　　Arachnid

　　Arachnid: 是一个基于Java的web spider框架.它包含一个简单的HTML剖析器才能剖析包含HTML内容的输入流.通过实现Arachnid的泛型才能够开发一个简单的Web spiders并才能在Web站上的每位页面被解析然后降低几行代码调用。 Arachnid的下载包中包含两个spider应用程序事例用于演示怎么使用该框架。

　　LARM

　　LARM才能为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含才能为文件，数据库表格构建索引的方式和为Web站点建索引的爬虫。

　　JoBo

　　JoBo 是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能否手动填充form(如：自动登入)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。

　　snoics-reptile

　　snoics-reptile是用纯Java开发的，用来进行网站镜像抓取的工具，可以使用配制文件中提供的URL入口，把这个网站所有的能用浏览器通过GET的方法获取到的资源全部抓取到本地，包括网页和各类类型的文件，如：图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬碟内，并能保持原有的网站结构精确不变。只须要把抓取出来的网站放到web服务器(如：Apache)中，就可以实现完整的网站镜像。

　　Web-Harvest

　　Web-Harvest是一个Java开源Web数据抽取工具。它就能搜集指定的Web页面并从这种页面中提取有用的数据。Web-Harvest主要是运用了象XSLT,XQuery,正则表达式等这种技术来实现对text/xml的操作。

　　spiderpy

　　spiderpy是一个基于Python编码的一个开源web爬虫工具，允许用户搜集文件和搜索网站，并有一个可配置的界面。

　　The Spider Web Network Xoops Mod Team

　　pider Web Network Xoops Mod是一个Xoops下的模块java爬虫技术，完全由PHP语言实现。

　　HiSpider is a fast and high performance spider with high speed

　　严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.iniwhitelist).

0

2020-06-27

nutch web技术 web开发

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫技术

0 个评论

发起人