java爬虫技术
优采云 发布时间: 2020-06-27 08:00htmlparse
jsoup
HeritrixNutch
java 抓取网页内容
爬虫
java 爬虫比较
Nutch
开发语言:Java
简介:
Apache的子项目之一,属于Lucene项目下的子项目。
Nutch是一个基于Lucene,类似Google的完整网路搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。
Larbin
开发语言:C++
简介
larbin是一种开源的网路爬虫/网路蜘蛛,由美国的年轻人 Sébastien Ailleret独立开发。larbin目的是能否跟踪页面的url进行扩充的抓取,最后为搜索引擎提供广泛的数据来源。
Larbin只是一个爬虫,也就是说larbin只抓取网页,至于怎样parse的事情则由用户自己完成。另外,如何储存到数据库以及完善索引的事情 larbin也不提供。
latbin最初的设计也是根据设计简单而且高度可配置性的原则,因此我们可以看见,一个简单的larbin的爬虫可以每晚获取500万的网页,非常高效。
Heritrix
开发语言:Java
简介
与Nutch比较
和 Nutch。二者均为Java开源框架,Heritrix是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都叫做网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这种资源抓取到本地,使用的技巧都是剖析网站每一个有效的URI,并递交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。
Heritrix是个 “archival crawler” — 用来获取完整的、精确的、站点内容的深度复制。包括获取图象以及其他非文本内容。抓取并储存相关的内容。对内容来者不拒,不对页面进行内容上的更改。重新爬行对相同的URL不针对原先的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差别:
Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原样
Nutch 可以修剪内容,或者对内容格式进行转换。
Nutch 保存内容为数据库优化格式以便之后索引;刷新替换旧的内容。而Heritrix是添加(追加)新的内容。
Nutch 从命令行运行、控制。Heritrix有 Web 控制管理界面。
Nutch 的订制能力不够强,不过现今早已有了一定改进。Heritrix可控制的参数更多。
Heritrix提供的功能没有nutch多,有点整站下载的气味。既没有索引又没有解析,甚至对于重复爬取URL都处理不是挺好。
Heritrix的功能强悍 但是配置上去却有点麻烦。
其他网路爬虫介绍:
WebLech
WebLech是一个功能强悍的Web站点下载与镜像工具。它支持按功能需求来下载web站点并才能尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。
Arale
Arale主要为个人使用而设计,而没有象其它爬虫一样是关注于页面索引。Arale才能下载整个web站点或来自web站点的个别资源。Arale能够够把动态页面映射成静态页面。
J-Spider
J-Spider:是一个完全可配置和订制的Web Spider引擎.你可以借助它来检测网站的错误(内在的服务器错误等),网站内外部链接检测java爬虫技术,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩充你所须要的功能。
spindle
spindle 是一个建立在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这种索引的搜索类。spindle项目提供了一组JSP标签库促使这些基于JSP的站点不需要开发任何Java类能够够降低搜索功能。
Arachnid
Arachnid: 是一个基于Java的web spider框架.它包含一个简单的HTML剖析器才能剖析包含HTML内容的输入流.通过实现Arachnid的泛型才能够开发一个简单的Web spiders并才能在Web站上的每位页面被解析然后降低几行代码调用。 Arachnid的下载包中包含两个spider应用程序事例用于演示怎么使用该框架。
LARM
LARM才能为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含才能为文件,数据库表格构建索引的方式和为Web站点建索引的爬虫。
JoBo
JoBo 是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能否手动填充form(如:自动登入)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。
snoics-reptile
snoics-reptile是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口,把这个网站所有的能用浏览器通过GET的方法获取到的资源全部抓取到本地,包括网页和各类类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬碟内,并能保持原有的网站结构精确不变。只须要把抓取出来的网站放到web服务器(如:Apache)中,就可以实现完整的网站镜像。
Web-Harvest
Web-Harvest是一个Java开源Web数据抽取工具。它就能搜集指定的Web页面并从这种页面中提取有用的数据。Web-Harvest主要是运用了象XSLT,XQuery,正则表达式等这种技术来实现对text/xml的操作。
spiderpy
spiderpy是一个基于Python编码的一个开源web爬虫工具,允许用户搜集文件和搜索网站,并有一个可配置的界面。
The Spider Web Network Xoops Mod Team
pider Web Network Xoops Mod是一个Xoops下的模块java爬虫技术,完全由PHP语言实现。
HiSpider is a fast and high performance spider with high speed
严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.iniwhitelist).