htmlunit 抓取网页(ApacheNutchX版本实现请访问:pageonNutchwith1.8)
优采云 发布时间: 2022-04-12 02:20htmlunit 抓取网页(ApacheNutchX版本实现请访问:pageonNutchwith1.8)
基于Apache Nutch和Htmlunit扩展的AJAX页面爬虫爬取解析插件------------------ ------------------------------------------------- - ----------------------- 提示:项目当前版本停止更新,最新Apache Nutch 2.X版本实现请访问:- --- ------------------------------------------------------------ --- ----------------------------------
之前提供了一个版本,直接将源代码以插件的形式放到代码库中。后来发现很多人反映集成到apache nutch中编译或者运行,遇到这样那样的问题。所以,这次基于Apache Nutch 1.8源码项目,预设了所有插件源码/依赖/操作参数,让大家可以更简洁全面的使用这个插件。
Nutch Htmlunit插件项目介绍基于Apache Nutch1.8和Htmlunit组件,实现了对AJAX加载类型页面的完整页面内容抓取和分析。根据 Apache Nutch 1.8 的实现,我们无法从收录 AJAX 请求的获取页面中获取动态 HTML 信息,因为它会忽略所有 AJAX 请求。该插件将使用 Htmlunit 通过必要的动态 AJAX 请求获取整个页面内容。它使用 Apache Nutch 1.8 开发和测试,您可以在其他 Nutch 版本上尝试它或重构源代码作为您的设计。主要功能运行体验由于Nutch运行在Unix/Linux环境下,请自行准备Unix/Linux系统或Cygwin运行环境。 git clone整个项目代码后,进入本地git下载目录: cd nutch-htmlunit/runtime/local bin/crawl urls crawl false 1 //urls参数为爬虫url文件目录; crawl 是爬虫输出目录; false应该是solr index url参数,这里设置为false,不做solr索引处理; 1是爬虫执行次数后,可以看到天猫商品页面的价格/描述/滚装图,信息已经全部获取完毕。运行日志输入示例参考:扩展插件说明