htmlunit 抓取网页(ApacheNutchX版本实现请访问：pageonNutchwith1.8)

优采云发布时间: 2022-04-12 02:20

　　基于Apache Nutch和Htmlunit扩展的AJAX页面爬虫爬取解析插件------------------ ------------------------------------------------- - ----------------------- 提示：项目当前版本停止更新，最新Apache Nutch 2.X版本实现请访问：- --- ------------------------------------------------------------ --- ----------------------------------

　　之前提供了一个版本，直接将源代码以插件的形式放到代码库中。后来发现很多人反映集成到apache nutch中编译或者运行，遇到这样那样的问题。所以，这次基于Apache Nutch 1.8源码项目，预设了所有插件源码/依赖/操作参数，让大家可以更简洁全面的使用这个插件。

　　Nutch Htmlunit插件项目介绍基于Apache Nutch1.8和Htmlunit组件，实现了对AJAX加载类型页面的完整页面内容抓取和分析。根据 Apache Nutch 1.8 的实现，我们无法从收录 AJAX 请求的获取页面中获取动态 HTML 信息，因为它会忽略所有 AJAX 请求。该插件将使用 Htmlunit 通过必要的动态 AJAX 请求获取整个页面内容。它使用 Apache Nutch 1.8 开发和测试，您可以在其他 Nutch 版本上尝试它或重构源代码作为您的设计。主要功能运行体验由于Nutch运行在Unix/Linux环境下，请自行准备Unix/Linux系统或Cygwin运行环境。 git clone整个项目代码后，进入本地git下载目录： cd nutch-htmlunit/runtime/local bin/crawl urls crawl false 1 //urls参数为爬虫url文件目录； crawl 是爬虫输出目录； false应该是solr index url参数，这里设置为false，不做solr索引处理； 1是爬虫执行次数后，可以看到天猫商品页面的价格/描述/滚装图，信息已经全部获取完毕。运行日志输入示例参考：扩展插件说明

0

2022-04-12

htmlunit 抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

htmlunit 抓取网页(ApacheNutchX版本实现请访问：pageonNutchwith1.8)

0 个评论

发起人