采集(想用Drupal采集插件)
优采云 发布时间: 2022-02-03 13:04采集(想用Drupal采集插件)
如果要使用 Drupal采集 插件,可以先下载雅爱园 Drupal采集器 发行版,安装,即可使用。里面有详细的文档。雅爱源 Drupal采集器,使用标准的Drupal模块,是完全开源的,但是为了支持中文采集,部分模块做了修改。
我们来介绍一下雅爱园Drupal中采集相关的模块插件采集器:
1、Feeds模块,这个是主模块,是用来导入数据的,开始是收RSS数据,后来发展到导入各种数据,后来发现基于这个模块,可以用于采集网页信息。
2、job_scheduler模块,这是Feeds模块依赖的插件,采集期间的任务调度,很多时候需要依赖这个模块。
3、feeds_tamper模块,该模块用于导入数据时对数据进行预处理,也就是清理工作,非常有用的帮助模块。 采集网页数据必备模块。
4、feeds_xpathparser模块,该模块允许我们使用Xpath规则来解析数据。来自网页 采集 的数据是 HTML 格式,需要使用 Xpath 规则进行解析。这也是必备模块之一。
5、feeds_crawler模块,这是一个小型爬虫,方便采集各种分页列表,非常好用,网页爬取必备模块。
6、feeds_smartparser模块,智能提取HTML页面全文,是网页必备模块之一采集。
7、feeds_selfnode_processor模块,来自采集的节点本身也是一个feed*敏*感*词*。它可以通过HTTP请求捕获更详细的信息,改进自己的节点,是网页的必备模块之一采集。
8、Views/Ctools视图数据导出,将网页采集中的数据导出为各种格式,支持XML、CSV、Excel。
9、feeds_spider模块,采集蜘蛛,类似于feeds_crawler,网页采集模块之一。
相信在熟悉了以上模块之后,即使没有 Drupal采集器,你也可以构建自己的采集网站。
Aiyuan Drupal采集器是基于以上标准模块构建的,结合我们的实际经验,做一个有用的总结和归纳。