火车头采集器教程之实战演练——CMS采集规则编撰

优采云发布时间: 2020-04-21 11:02

　　火车头采集器教程之实战视频——CMS采集规则编撰

　　********************************************************************

　　********************************************************************

　　首先，我们先了解一下火车头采集器（LocoySpider）V3的基本功能，

　　我们明天所用到的火车头的基本功能如下

　　1、新建站点

　　2、新建任务

　　3、数据发布形式之“保存到软件数据库”

　　当然本教程是围绕“CMS采集规则编撰”这一主题展开的，所以不可能面面俱到的陈表火车头采集器的功能，在此请见谅！

　　现在我们结合实战来给你们讲解

　　*********************************************************

　　一、新建站点

　　1、功能：对同一站点具有“相同采集内容规则”的采集任务进行聚合

　　2、好处：

　　a、分类明确，便于查询、调用；

　　b、在站点下构建的采集任务默认承继站点采集内容规则，避免了重复编撰采集规则的麻烦；

　　3、实战：

　　我们以“每日经济新闻”为例进行讲解，首先我们打开其站点，浏览其中不同栏目的文章发现这个站点的文章模式（模板）几乎是完全一致的

　　（当然，其中有一点小小的区别，就是有的文章段落是靠段落标记<

　　</P>进行界定的，有的文章段落是靠<DIV></DIV>进行界定的，这时候假如你的网站布局是采用<

　　table></table>布局的没哪些大不了的，但是假如你的网站是采用<DIV></DIV>布局的，

　　那么残余的DIV标记太可能会破坏你原先的布局，此种情况的解决办法我们之后再继续讨论，这里我就不再赘言了）。

　　好，现在我们有理由相信，我们构建一个站点的“内容规则”，就可以将这个网站的所有栏目囊括了。

　　点选新建按键，选择新建站点“每日经济新闻”

　　我们，先进行“标题”规则的编撰

　　标题标签规则的编撰

　　注意：标签起始字符串的确认，一定要注意两点，一、唯一性；二、贴身原则，即尽可能紧贴目标采集区域；

　　开始字符串：<span>

　　结束字符串：</span><span>

　　注意：确认字符串的唯一性：复制字符串，点按快捷键“Ctrl+F”进行查找，如果字符串为惟一，会有提示信息“找不到XXX”的提示。

　　为了确认标签的通用性，我们可以选择不同的文章进行测试，，这里就不做演示了/。

　　Html标签排除：我们选择“全选”。

　　注意：然对于“空格（占位符） ”我们可以有所保留，因为有些站点的“长标题”的分隔不是靠标点或则正宗意义上的空白，而是靠“占位符 ”进行分隔的，那么这时候我们就要保留“空格（占位符） ”选项。（课后看吧）

　　此时我们可以以点代面，直接进行“典型页面”的采集测试，测试一下采集效果，满意后，我们接下来进行文章内容的规则编撰。

　　文章内容标签规则的编撰

　　开始字符串：<span>

　　结束字符串：<br><iframe

　　Html标签排除：此时我们要保留拿来界定段落的一下常用字符串“<br />”、“P”、“<DIV”，并且保留文章中常用的图象“<img”。（测试）

　　注意：我们早已选择将"<table"排除了，但是常常有的文章中就富含一些"数据表格"，这时候我们只能是顾全大局了，日后再查缺补漏。除非你才能确认你的目标采集区域不会有多余的“布局表格”出现，否则我们还是将表格标记排除为妙。

　　作者标签规则的编撰

　　要点与标题标签规则的编撰相同火车头采集教程，此处不再赘言。

　　开始字符串：<div style=font-size:9pt>

　　结束字符串：[200

　　Html标签排除：我们选择“全选”。（测试）

　　时间标签编撰规则

　　要点同上。

　　开始字符串：<span>

　　结束字符串：<br><iframe

　　Html标签排除：我们选择“全选”。（测试）

　　出处标签尺寸的编撰

　　此值，一般来说，我们默认为我们采集的目标网站，使用“固定格式的数据”进行设置，但是，你若果为了更好的彰显贵网站的版权意识，那么，你在对目标网站转载的文章进行采集设置的时侯，可以进行相应调整，此处不做赘言。

　　好了，整个站点的“内容规则”我们设置完毕火车头采集教程，下面将进行，采集任务的设置。

　　**************************************************************************

　　二、新建采集任务

　　在刚才构建的采集站点上点击滑鼠右键，选择“从该站点新建任务”，，在弹出的对话框里我们察看一下“内容规则”，结果正如前面所说“在站点下构建的采集任务默认承继站点采集内容规则”，好了，我们就可以直接编撰“采集网址”的规则了。

0

2020-04-21

火车头

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

火车头采集器教程之实战演练——CMS采集规则编撰

0 个评论

发起人

AI时代内容工厂

火车头采集器教程之实战演练——CMS采集规则编撰

0 个评论

发起人

相关问题