火车头采集器3.0采集图文教程

优采云 发布时间: 2020-04-20 11:02

  以采集示例解读部份功能

  今天要给你们做示例的网站是163的 娱乐频道 这个应当是个比较通用和实用的规则,下面开始。

  如果您是列车采集器的老鸟,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是菜鸟这么您最好能仔细看下,因为这将推动您的入门,同时在之后给您节约好多时间。以下是一些采集的基本步骤火车头采集教程,您可以灵活运用:

  一、建立站点

  1、请先打开列车采集器,新建站点,看右图:

  

  为了便捷管理您可以为您的站点取任何的您认为易记的名称,但是我建议用目标源的名子作为站点的名称有利于日后的管理,如右图

  

  大部分的站点,通站常常只有一套模版或则有几套类似的模版,这边所谓的类似讲的是模版中的标记太接近,那哪些是模版标记?模版标记指的是某部份内容开始和结束记号。比如好多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部份用类似于或

  等标志来表示内容的开始。他们如此作的缘由有两个,一个是因为内容多,为了各个部门之间的配合而作了对应的标记便于于工程的交接,另一个缘由就是内容控制的须要,随着xhtml的流行,用层控制越来越多,这就促使我们找寻采集标示越来越简单(这点大家之后会渐渐理解的)。上面给诸位讲这种是因为接下来要我们要讲解的是整站内容规则。

  2、标题标签讲解。对应的页面在这:

  首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发觉按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或则选种标题标签在点击更改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:

  

  3、内容标签讲解。制作采集规则(任务)的任何一个标签最重要的就在于找寻开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的惟一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是列车采集器并不需要如此作,你要找的只须要是从上到下第一个标志就可以了,我的意思是说,html代码中容许有n个相同的开始(结束,下同)标志,但是只要这个坐落我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以 为例,我们发觉他的内容从“进入峰会”,因此双击代码测试框,查找须要的代码,如图:

  

  我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部份,我以

  作为内容开始的标志。

  

  接下来看内容结束标志,如下两图:

  

  

  下面是按照我么设置规则采集回来的内容

  

  一般来说我们从开始标志到结束标志所采集回来的内容中还会包含有必须排除的内容或广告,或链接。这边我们须要排除的内容是“相关专题>>> 第六届金鹰电视艺术节”。排除的方式是火车头采集教程,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部份用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现今的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在那边我只抽取“明星、图片、电影”作为列子跟你们讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。

  这个页面正好有分页,所以就顺便讲下上下页的设置。他那边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名子(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:

  

  这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部份替换成"(*)"即可。由于他那边没有广告,所有整站规则即使制做完毕,点击保存步入单任务制做。好了,整站规则就讲这两个标签,其他的依据须要自己按前面的步骤添加,记住,万变不距其宗。其他的问题请到列车采集器峰会: 探讨。

  二、下面讲解单任务规则制做:

  1、内容规则的制做,很多人到如今可能都还不明白列车采集器好在哪,现在讲的这个绝对是列车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)

  火车采集器是不需要经过网址规则制做即可直接步入内容采集,这样你就可以按照站点的难易决定是否采集选定的目标源,而毋须等到网址采集后才发觉原先这个网站你没办法采或则根本不值得你浪费这个时间(前面的时间白搭了!)。

  火车v3.0最大的功能之一既是可以承继站点的规则,只要你上面制做的规则通用,那么在接下来的所有任务都不需要再制做内容采集规则了。由于上面我们制做的内容采集规则通用,所以那边的规则我们就不用讲解了,直接承继站点的,如图:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线