火车头采集器教程之实战演练——CMS采集规则编撰

优采云 发布时间: 2020-04-21 11:02

  火车头采集器教程之实战视频——CMS采集规则编撰

  ********************************************************************

  火车头采集器教程之实战演练——CMS采集规则编撰

  ********************************************************************

  首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,

  我们明天所用到的火车头的基本功能如下

  1、新建站点

  2、新建任务

  3、数据发布形式之“保存到软件数据库”

  当然本教程是围绕“CMS采集规则编撰”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!

  现在我们结合实战来给你们讲解

  *********************************************************

  一、新建站点

  1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合

  2、好处:

  a、分类明确,便于查询、调用;

  b、在站点下构建的采集任务默认承继站点采集内容规则,避免了重复编撰采集规则的麻烦;

  3、实战:

  我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 ,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的

  (当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<

  </P>进行界定的,有的文章段落是靠<DIV></DIV>进行界定的,这时候假如你的网站布局是采用<

  table></table>布局的没哪些大不了的,但是假如你的网站是采用<DIV></DIV>布局的,

  那么残余的DIV标记太可能会破坏你原先的布局,此种情况的解决办法我们之后再继续讨论,这里我就不再赘言了)。

  好,现在我们有理由相信,我们构建一个站点的“内容规则”,就可以将这个网站的所有栏目囊括了。

  点选新建按键,选择新建站点“每日经济新闻”

  我们,先进行“标题”规则的编撰

  标题标签规则的编撰

  注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能紧贴目标采集区域;

  开始字符串:<span>

  结束字符串:</span><span>

  注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为惟一,会有提示信息“找不到XXX”的提示。

  为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。

  Html标签排除:我们选择“全选”。

  注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或则正宗意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)

  此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编撰。

  文章内容标签规则的编撰

  开始字符串:<span>

  结束字符串:<br><iframe

  Html标签排除:此时我们要保留拿来界定段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图象“<img”。(测试)

  注意:我们早已选择将"<table"排除了,但是常常有的文章中就富含一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你才能确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。

  作者标签规则的编撰

  要点与标题标签规则的编撰相同火车头采集教程,此处不再赘言。

  开始字符串:<div style=font-size:9pt>

  结束字符串:[200

  Html标签排除:我们选择“全选”。(测试)

  时间标签编撰规则

  要点同上。

  开始字符串:<span>

  结束字符串:<br><iframe

  Html标签排除:我们选择“全选”。(测试)

  出处标签尺寸的编撰

  此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你若果为了更好的彰显贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时侯,可以进行相应调整,此处不做赘言。

  好了,整个站点的“内容规则”我们设置完毕火车头采集教程,下面将进行,采集任务的设置。

  **************************************************************************

  二、新建采集任务

  在刚才构建的采集站点上点击滑鼠右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前面所说“在站点下构建的采集任务默认承继站点采集内容规则”,好了,我们就可以直接编撰“采集网址”的规则了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线