8.1 内容手动采集器功能及采集原理

优采云 发布时间: 2020-08-11 21:00

  第8章 内容手动采集器模块(爬虫+FCKeditor编辑器+任务接力)

  网站内容的组成不仅编辑录入原创内容外,还可以通过后台的内容采集功能获取指定内容源信息。使用内容手动采集器可以促使网站的内容多元化,同时降低网站编辑人员的工作量。因此,内容手动采集器功能是网站后台的必要功能之一。读者通过本章的学习,可以了解内容采集的基本原理和实现方式,直观地了解正则表达式在内容采集过程中的核心作用,其中涉及的技术细节和知识点也将在讲解反例的时侯逐一论述。

  本章主要涉及的知识点如下。

  file_get_contents()函数:函数把整个文件读入一个字符串中。

  preg_match_all()函数:进行全局正则表达式匹配。

  FCKeditor编辑器:被广泛使用的、开放源代码的"所见即所得"文字编辑器。

  任务接力模式:任务接力模式的本质是对一个任务做分拆,将一个任务分拆成多个子任务来实现。

  8.1 内容手动采集器功能及采集原理

  内容采集,顾名思义就是对互联网的公共信息资源根据一定的要求进行手动的采集、过滤、整理,再根据一定的规则存入数据库中。根据这个目标可以看见,内容手动采集器的功能由3部份组成,即数据规则模型管理、采集节点管理、已下载内容管理。

  在实际的应用中,根据不同的业务应用领域会对应加强某部份的功能。如果要采集的目标网站内容格式非常复杂,就要加强"数据规则模型管理"定制适用于不同类型站点的采集规则;如果须要时常更换采集的信息源,则须要加强"采集节点管理"和"重复内容过滤"功能。常见的典型应用则是将上述的功能整合到一起,在一个界面上操作会更高效、快捷。总之,需要按照实际业务将上述的功能结合使用。

  内容手动采集器采集数据的通常流程如下:

  (1)根据预先定义的抓取规则,获取一个栏目的网页中的所有内容,需要先将这个网页的网址列表记录出来制做成采集列表。

  (2)程序按照定义的规则抓取列表页面,从中剖析整理出网址列表,然后再去抓取获得网址的网页中的内容。

  (3)程序按照具体页面的采集规则,对下载到的网页剖析,将标题内容等信息分离开,核对无误后存入数据库。

  本节具体介绍内容采集技术实现的原理和流程。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线