自媒体文章采集器(Heritrix3.X与1.X版本变化比较大的需求分析)

优采云 发布时间: 2022-04-15 02:21

  自媒体文章采集器(Heritrix3.X与1.X版本变化比较大的需求分析)

  一、简介

  Heritrix3.X和1.X的版本变化很大,基于此的Extractor定向扩展方式也受到影响。自定义扩展因界面变化而被屏蔽,从而产生通用网络信息采集器设计思路。从来没有一个好的网络信息采集器,它必须能够适应下载对象的多样性和下载内容的复杂性。例如,需要同时下载100多个主流媒体的新闻信息,并进行分析和存储。本文重点介绍通用网络信息采集器的设计。

  二、需求分析

  一个好的网络爬虫必须满足通用性、多任务、方向性和可扩展性。

  

  通用性是指能够下载不同格式的对象,如HTML、JS、PDF等;定向下载,即只下载你关心的网页,其他不相关的页面会被自动过滤掉。好消息是开源社区中有很多可用的资源。不好的是,能同时满足上述要求的软件很少。幸运的是,Heritrix3.X 就是其中之一,但您需要编写自己的代码并对其进行扩展。提取器,实现其定向下载。

  三、建筑设计

  以下部分是预期网络信息采集器的逻辑结构。如下所示:

  

  每个目标任务代表一个下载渠道,如新浪、搜狐等。下载规则负责URL过滤,只下载符合规则的内容,如新闻;解析规则负责过滤下载的内容,只选择我想要的,例如新闻头条、内容、评论等;元数据规则定义数据存储规则,任务与元数据规则关联,实现自动存储。

  四、成就

  博客园拍的,我把我的个人技术博客作为下载目标。下面是我定向扩容后的下载结果:

  

  P文件夹的内容代表具体的网页:

  

  五、剩下的问题

  1.是不是需要单独做一个URL发现工具,根据入口URL+过滤规则输出要下载的对象的URL地址?当前的模型是复合的、逻辑分离的和物理耦合的。

  2.如何实现增量下载和循环运行,当前任务通过人工干预启动和停止。需要改进。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线