什么是“火车头采集规则”?

优采云 发布时间: 2020-06-01 08:02

  

  数据抓取原理

  火车采集器怎样去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采出来,这就是采网址。程序按您的规则抓取列表页面,从中剖析出网址,然后再去抓取获得网址的网页里的内容。再按照您的采集规则,对下载到的网页剖析,将标题内容等信息分离开来并保存出来。如果您选择了下载图片等网路资源,程序会对采集到的数据进行剖析,找出图片,资源等的下载地址并下载到本地。

  数据发布原理

  在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方法对数据进行处理。

  1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您若果只是查看数据,直接用相关软件打开查看即可。

  2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的疗效。

  3、直接入数据库。您只需写几个SQL句子,程序会将数据按您的SQL句子导出到数据库中。

  4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。

  工作流程

  火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。

  1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。

  2、发布内容就是将数据发布到自己的峰会火车采集器 规则,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布火车采集器 规则,数据库入库或存为本地文件。

  具体的使用似乎是太灵活的,可以按照实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强悍功能之一也就是彰显在灵活中。

  新增功能

  无限级多页采集

  任务队列运行管理功能

  无限级分组任务管理,任务回收站功能

  RSS地址采集功能

  列表页分页采集获取功能

  列表页附加参数获取功能

  列表页及标签XPath可视化提取功能

  标签纯正则替换功能

  Http插口查看运行情况

  导出记录为单个或多个Txt、html 文件

  标签间自由组合功能

  针对标签内容继续发送Http恳求功能

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线