ajax抓取网页内容(NutchHtmlunitXimplement项目简介基于ApacheNutch1.8和Htmlunit组件)

优采云 发布时间: 2021-10-10 23:00

  ajax抓取网页内容(NutchHtmlunitXimplement项目简介基于ApacheNutch1.8和Htmlunit组件)

  -------------------------------------------------- ---------------------------当前版本停止更新,Apache Nutch 2.X 工具请参考:---- -------------------------------------------------- -----------------------Nutch Htmlunit Plugin项目介绍

  基于Apache Nutch1.8和Htmlunit组件,实现了AJAX加载类型页面的完整页面内容爬取分析。

  根据Apache Nutch 1.8 的实现,我们无法从收录AJAX 请求的fetch 页面中获取动态HTML 信息,因为它会忽略所有AJAX 请求。

  这个插件将使用 Htmlunit 来获取具有必要动态 AJAX 请求的整个页面内容。它是使用 Apache Nutch 1.8 开发和测试的,您可以在其他 Nutch 版本上试用它或将源代码重构为您的设计。

  主要特点 跑步体验

  由于Nutch基于Unix/Linux环境运行,请自行准备Unix/Linux系统或Cygwin运行环境。

  git clone 整个项目代码后,进入到本地的git下载目录:

  cd nutch-htmlunit/运行时/本地

  bin/crawl urls crawl false 1

  //urls参数为爬虫存放url文件目录;crawl 是爬虫输出目录;false应该是solr索引url参数,这里设置为false不做solr索引处理;1是爬虫执行次数

  操作结束后,可以看到天猫商品页面的价格/描述/滚动加载图片等信息已经全部获取完毕。

  运行日志输入示例参考:

  扩展插件说明源码项目说明

  整个项目基于Apache Nutch 1.8 源代码项目扩展插件实现。插件的定义和配置与官方插件处理方式一致。详情请参考Apache Nutch 1.8 官方文档。具体实现原理和代码请导入Eclipse项目查看。

  开源许可说明

  本项目所有代码完整开源,可自由使用:开源、非开源、商业和非商业,前提是保留本项目的源码信息,未经授权销售本项目项目保证不执行。

  如果您想提供基于Apache Nutch/Solr/Lucene等系列技术的定制化扩展实现/技术咨询服务/毕业设计指导/二次开发项目指导,可以联系E-Mail:或(加Q请注明:nutch/ solr/lucene) 议价服务。【以上*敏*感*词*不直接提供免费技术咨询查询。如果您对项目有任何技术问题或issue反馈,请直接提交到项目站点提问或在Git平台上Issue]

  参考

  欢迎关注作者的其他项目:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线