火车头采集器教程之实战演练——CMS采集规则编撰
优采云 发布时间: 2020-04-21 11:02********************************************************************
火车头采集器教程之实战演练——CMS采集规则编撰
********************************************************************
首先,我们先了解一下火车头采集器(LocoySpider)V3的基本功能,
我们明天所用到的火车头的基本功能如下
1、新建站点
2、新建任务
3、数据发布形式之“保存到软件数据库”
当然本教程是围绕“CMS采集规则编撰”这一主题展开的,所以不可能面面俱到的陈表火车头采集器的功能,在此请见谅!
现在我们结合实战来给你们讲解
*********************************************************
一、新建站点
1、功能:对同一站点具有“相同采集内容规则”的采集任务进行聚合
2、好处:
a、分类明确,便于查询、调用;
b、在站点下构建的采集任务默认承继站点采集内容规则,避免了重复编撰采集规则的麻烦;
3、实战:
我们以“每日经济新闻”为例进行讲解,首先我们打开其站点 ,浏览其中不同栏目的文章发现这个站点的文章模式(模板)几乎是完全一致的
(当然,其中有一点小小的区别,就是有的文章段落是靠段落标记<
</P>进行界定的,有的文章段落是靠<DIV></DIV>进行界定的,这时候假如你的网站布局是采用<
table></table>布局的没哪些大不了的,但是假如你的网站是采用<DIV></DIV>布局的,
那么残余的DIV标记太可能会破坏你原先的布局,此种情况的解决办法我们之后再继续讨论,这里我就不再赘言了)。
好,现在我们有理由相信,我们构建一个站点的“内容规则”,就可以将这个网站的所有栏目囊括了。
点选新建按键,选择新建站点“每日经济新闻”
我们,先进行“标题”规则的编撰
标题标签规则的编撰
注意:标签起始字符串的确认,一定要注意两点,一、唯一性;二、贴身原则,即尽可能紧贴目标采集区域;
开始字符串:<span>
结束字符串:</span><span>
注意:确认字符串的唯一性:复制字符串,点按快捷键“Ctrl+F”进行查找,如果字符串为惟一,会有提示信息“找不到XXX”的提示。
为了确认标签的通用性,我们可以选择不同的文章进行测试,,这里就不做演示了/。
Html标签排除:我们选择“全选”。
注意:然对于“空格(占位符) ”我们可以有所保留,因为有些站点的“长标题”的分隔不是靠标点或则正宗意义上的空白,而是靠“占位符 ”进行分隔的,那么这时候我们就要保留“空格(占位符) ”选项。(课后看吧)
此时我们可以以点代面,直接进行“典型页面”的采集测试,测试一下采集效果,满意后,我们接下来进行文章内容的规则编撰。
文章内容标签规则的编撰
开始字符串:<span>
结束字符串:<br><iframe
Html标签排除:此时我们要保留拿来界定段落的一下常用字符串“<br />”、“P”、“<DIV”,并且保留文章中常用的图象“<img”。(测试)
注意:我们早已选择将"<table"排除了,但是常常有的文章中就富含一些"数据表格",这时候我们只能是顾全大局了,日后再查缺补漏。除非你才能确认你的目标采集区域不会有多余的“布局表格”出现,否则我们还是将表格标记排除为妙。
作者标签规则的编撰
要点与标题标签规则的编撰相同火车头采集教程,此处不再赘言。
开始字符串:<div style=font-size:9pt>
结束字符串:[200
Html标签排除:我们选择“全选”。(测试)
时间标签编撰规则
要点同上。
开始字符串:<span>
结束字符串:<br><iframe
Html标签排除:我们选择“全选”。(测试)
出处标签尺寸的编撰
此值,一般来说,我们默认为我们采集的目标网站,使用“固定格式的数据”进行设置,但是,你若果为了更好的彰显贵网站的版权意识,那么,你在对目标网站转载的文章进行采集设置的时侯,可以进行相应调整,此处不做赘言。
好了,整个站点的“内容规则”我们设置完毕火车头采集教程,下面将进行,采集任务的设置。
**************************************************************************
二、新建采集任务
在刚才构建的采集站点上点击滑鼠右键,选择“从该站点新建任务”,,在弹出的对话框里我们察看一下“内容规则”,结果正如前面所说“在站点下构建的采集任务默认承继站点采集内容规则”,好了,我们就可以直接编撰“采集网址”的规则了。