ajax抓取网页内容(NutchHtmlunitXimplement项目简介基于ApacheNutch1.8和Htmlunit组件)

优采云发布时间: 2021-10-10 23:00

　　-------------------------------------------------- ---------------------------当前版本停止更新，Apache Nutch 2.X 工具请参考：---- -------------------------------------------------- -----------------------Nutch Htmlunit Plugin项目介绍

　　基于Apache Nutch1.8和Htmlunit组件，实现了AJAX加载类型页面的完整页面内容爬取分析。

　　根据Apache Nutch 1.8 的实现，我们无法从收录AJAX 请求的fetch 页面中获取动态HTML 信息，因为它会忽略所有AJAX 请求。

　　这个插件将使用 Htmlunit 来获取具有必要动态 AJAX 请求的整个页面内容。它是使用 Apache Nutch 1.8 开发和测试的，您可以在其他 Nutch 版本上试用它或将源代码重构为您的设计。

　　主要特点跑步体验

　　由于Nutch基于Unix/Linux环境运行，请自行准备Unix/Linux系统或Cygwin运行环境。

　　git clone 整个项目代码后，进入到本地的git下载目录：

　　cd nutch-htmlunit/运行时/本地

　　bin/crawl urls crawl false 1

　　//urls参数为爬虫存放url文件目录；crawl 是爬虫输出目录；false应该是solr索引url参数，这里设置为false不做solr索引处理；1是爬虫执行次数

　　操作结束后，可以看到天猫商品页面的价格/描述/滚动加载图片等信息已经全部获取完毕。

　　运行日志输入示例参考：

　　扩展插件说明源码项目说明

　　整个项目基于Apache Nutch 1.8 源代码项目扩展插件实现。插件的定义和配置与官方插件处理方式一致。详情请参考Apache Nutch 1.8 官方文档。具体实现原理和代码请导入Eclipse项目查看。

　　开源许可说明

　　本项目所有代码完整开源，可自由使用：开源、非开源、商业和非商业，前提是保留本项目的源码信息，未经授权销售本项目项目保证不执行。

　　如果您想提供基于Apache Nutch/Solr/Lucene等系列技术的定制化扩展实现/技术咨询服务/毕业设计指导/二次开发项目指导，可以联系E-Mail：或（加Q请注明：nutch/ solr/lucene) 议价服务。【以上*敏*感*词*不直接提供免费技术咨询查询。如果您对项目有任何技术问题或issue反馈，请直接提交到项目站点提问或在Git平台上Issue]

　　参考

　　欢迎关注作者的其他项目：

0

2021-10-10

ajax抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

ajax抓取网页内容(NutchHtmlunitXimplement项目简介基于ApacheNutch1.8和Htmlunit组件)

0 个评论

发起人

AI时代内容工厂

ajax抓取网页内容(NutchHtmlunitXimplement项目简介基于ApacheNutch1.8和Htmlunit组件)

0 个评论

发起人

相关问题