java抓取网页数据源码-neocrawler:NodejsCrawler、webuiconfig、pro
优采云 发布时间: 2021-08-11 20:26java抓取网页数据源码-neocrawler:NodejsCrawler、webuiconfig、pro
抓取网页数据的Java源码-neocrawler:NodejsCrawler,包括schedule、spider、webuiconfig、pro
java爬取网页数据源码一、概述NEOCrawler(中文名:牛卡)是一个由nodejs、redis、phantomjs实现的爬虫系统。代码完全开源,适用于数据采集和垂直领域爬虫的二次开发。 【主要特点】采用nodejs实现,javascipt简单高效,易学易用,为爬虫开发和爬虫用户二次开发节省了大量时间; nodejs 使用 GoogleV8 作为运行引擎,性能令人印象深刻;因为 nodejs 语言本身是非阻塞的,异步运行爬虫等对 IO 密集型 CPU 需求不敏感的系统的性能非常好。与其他语言版本相比,开发量小于C/C++/JAVA,性能高于JAVA的多线程实现和Python的异步和携程的实现方式。调度中心负责网站调度,爬虫进程分布式运行。即中央调度器统一决定在单个时间片内抓取哪些URL,协调各个爬虫的工作。爬虫的单点故障不会影响整个系统。爬虫时,爬虫会分析结构化的网页,提取需要的数据字段。存储时不仅有网页的源代码,还有各个字段的结构化数据,不仅使数据在网页被抓取后立即可用,而且方便在进入网页时实现准确的内容重新排列图书馆。集成phantomjs。 phantomjs 是一个没有图形界面环境的网页浏览器实现,
立即下载