采集(想用Drupal采集插件)

优采云 发布时间: 2022-02-03 13:04

  采集(想用Drupal采集插件)

  如果要使用 Drupal采集 插件,可以先下载雅爱园 Drupal采集器 发行版,安装,即可使用。里面有详细的文档。雅爱源 Drupal采集器,使用标准的Drupal模块,是完全开源的,但是为了支持中文采集,部分模块做了修改。

  我们来介绍一下雅爱园Drupal中采集相关的模块插件采集器:

  1、Feeds模块,这个是主模块,是用来导入数据的,开始是收RSS数据,后来发展到导入各种数据,后来发现基于这个模块,可以用于采集网页信息。

  2、job_scheduler模块,这是Feeds模块依赖的插件,采集期间的任务调度,很多时候需要依赖这个模块。

  3、feeds_tamper模块,该模块用于导入数据时对数据进行预处理,也就是清理工作,非常有用的帮助模块。 采集网页数据必备模块。

  4、feeds_xpathparser模块,该模块允许我们使用Xpath规则来解析数据。来自网页 采集 的数据是 HTML 格式,需要使用 Xpath 规则进行解析。这也是必备模块之一。

  5、feeds_crawler模块,这是一个小型爬虫,方便采集各种分页列表,非常好用,网页爬取必备模块。

  6、feeds_smartparser模块,智能提取HTML页面全文,是网页必备模块之一采集

  7、feeds_selfnode_processor模块,来自采集的节点本身也是一个feed*敏*感*词*。它可以通过HTTP请求捕获更详细的信息,改进自己的节点,是网页的必备模块之一采集

  8、Views/Ctools视图数据导出,将网页采集中的数据导出为各种格式,支持XML、CSV、Excel。

  9、feeds_spider模块,采集蜘蛛,类似于feeds_crawler,网页采集模块之一。

  相信在熟悉了以上模块之后,即使没有 Drupal采集器,你也可以构建自己的采集网站。

  Aiyuan Drupal采集器是基于以上标准模块构建的,结合我们的实际经验,做一个有用的总结和归纳。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线