优采云采集器应当怎样使用

优采云 发布时间: 2020-08-10 18:13

  目录目录 原理描述1.优采云采集器数据抓取原理: 优采云采集器怎样去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容, 需要先将这个网页的网址采出来,这就是采网址。程序按您的规则抓取列表页面,从中剖析 出网址,然后再去抓取获得网址的网页里的内容。再按照您的采集规则,对下载到的网页分 析,将标题内容等信息分离开来并保存出来。如果您选择了下载图片等网路资源,程序会对 采集到的数据进行剖析,找出图片,资源等的下载地址并下载到本地。 2.优采云采集器数据发布原理: 在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方法对数据进行 处理。 1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver), 您若果只是查看数据,直接用相关软件打开查看即可。 2、Web 发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的疗效。 3、直接入数据库。您只需写几个SQL 语句,程序会将数据按您的SQL 语句导出到数据库中。 4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql 或是文本文 3.优采云采集器工作流程:优采云采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。

  这两个过程是可以 分开的。 1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则, 在采的过程中也算是对内容做了处理。 2、发布内容就是将数据发布到自己的峰会,CMS 的过程,也是实现数据为已有的过程。可 以用WEB 在线发布,数据库入库或存为本地文件。 具体的使用似乎是太灵活的,可以按照实际来决定。比如我可以采集时先采集不发布,有 时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。 总之,具体过程由您而定,优采云采集器的强悍功能之一也就是彰显在灵活中。 术语解释名称 说明 采集规则 采集规则分为站点规则和任务规则,通常是指任务规则。所谓采集规 则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件 里导入保存成一个文件并可以再导出到软件里。站点规则文件的后缀 名为:.lsite;任务规则文件的后缀名为:.ljob。 采集任务 采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集 规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑 框里进行设置。从采集器里导入的采集规则文件(.ljob 后缀的)也可 称为任务规则。

  导入导入任务规则就是指导出导入.ljob 文件。 发布模块 发布模块又称为发布规则,通常是指数据库发布模块或则WEB 发布模 块。所谓发布模块就是在须要将早已采集的数据发布到目的地(比如: 指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成 一个文件并可以导出到采集器里使用。数据库发布模块文件的后缀名 为:.jhc;WEB 在线发布模块文件的后缀名为:.cwr。 (采集规则和发布模块都可以从采集器里导入,也都可以导出到采集 器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将 采集的数据发布到网站中。可见,采集规则的编撰和更改和被采集的 网站有关系,而发布模块的编撰和更改和要发布数据的网站有关系。 如从不同的网站栏目采集数据往同一个网站的某个蓝筹股(频道)里发 布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往 不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这 里的说的采集规则是指采集网站和抓取内容的设置。) 发布插口 发布插口就是一个小的页面程序一般和WEB 发布模块配合使用。WEB 在线发布(使用WEB 发布模块)是将采集的数据以POST 方式发送到 网站页面程序中由网站程序处理数据。

  而发布插口就是为了满足特定 需求而写的一个网站的页面程序(如:PHP 页面,ASP 页面等)。然后 采集器通过 WEB 在线发布将数据发送到这个插口文件由这个插口文 件处理数据。接口文件一般置于服务器网站某个目录下。简单的说就 是采集器将采集的数据发送到插口文件中,接口文件得到数据后去处 理数据。使用发布插口用户可以愈发灵活自由的处理采集器发送的数 插件优采云采集器里的插件分为PHP 插件和.NET 插件两种。标准版支持PHP 插件,企业版支持PHP 插件和.NET 插件。插件可以使用户通过自己写 PHP 程序或则.NET 程序放在采集器中对采集的数据进行处理。采集数 据数据在四个地方可以使用插件,分别为:采网址时、采内容时、采 多页时,保存时。 发布数据发布数据就是将采集到的数据发布到指定的目的地,优采云采集器支持 四种发布形式。 方式一:Web 在线发布到网站 这种发布形式类似于在网站后台手工添加数据一样。采集器将数据发 送给网站后台程序,由网站后台程序去处理数据一般后台程序讲数据 存入网站数据库中。 方式二:保存为本地文件 这种方法可以将采集的数据发布到本地的文件中,采集器支持保存成 Txt 格式、Csv 格式和Html 格式。

   方式三:导入到自定义数据库 这种方法可以通过采集器联接到其他数据库因而将采集的数据从软件 内置数据库中导出到其他的数据库中,目前采集器支持联接 Mysql、 Access、Oracle、MSsql 数据库。 方式四:保存为本地Sql 文件(Insert 语句) 这种方法是将采集的数据导入保存成Insert 语句,可以用于在数据库 的管理工具中执行插入数据。 本地编辑数据 采集器除了可以采集发布数据,还可以将采集下来的数据经过编辑以 后再发布。支持批量替换,通过SQL 语句批量处理以及在文本编辑框 里编辑。 三、下载地址 软件名称 下载地址 软件描述 www.ucaiyun.comV2010SP2_Free_ Build2010-11-15.rar ocoySpider/www.ucaiyun.com2010S P2.html 优采云采集器绿色版 .net framework 2.0 download/5/6/7/567758a3-759 e-473e-bf8f-52154438565a/dot netfx.exe .net framework 2.0 四、安装升级与卸载优采云采集器系统需求 优采云采集器可以运行于Windows 2000 或以上操作系统,CPU 的速率为 "奔腾133 MHz" 以上,128MB 内存容量或以上。

   优采云采集器的安装 优采云采集器2010 版是红色软件。如果您笔记本上安装了谷歌的.NET FrameWork 2.0 框架或更 高版本,安装时直接解压缩到您笔记本的任何地方即可完成采集器的安装--安装过程不操作注 册表和系统文件,不形成任何垃圾文件!如果您安装后程序没法启动,那可能是您笔记本没有 安装.NET FrameWork 2.0,请下载谷歌的.NET FrameWork 2.0 框架或更高版本并安装。附 2.0 下载地址: .net framework 2.0 下载地址: 5a/dotnetfx.exe 解压完成后,双击目录内的www.ucaiyun.com.exe 文件启动主程序开始采集之旅。 优采云采集器的升级 从优采云采集器 V3.2SP5,V2008 V2009版本升级到 V2010: 请运行程序目录下的 UpdateTo2010.exe 程序,按提示进行操作。 优采云采集器卸载 由于种种缘由,您暂时不想使用优采云采集器了,那么您直接找到优采云采集器的安装文件夹删 除即可以完成优采云采集器的卸载。在卸载前强烈建议您先备份,User,Plugins,Data 和Module 文件夹(即用户配置,插件目录,采集数据和模块)以便上次使用! 新建站点点击左上角的“新建->新建站点”进入到该新建页面,图如下 新建任务选择新建好的站点“测试1”,点击左上角的“新建->新建任务”进入到该新建页面, 图如下 在新建任务这个页面中,一共收录4个步骤,一次是采集网址规则,采集内容规则,发布 内容设置和文件保存及部份中级设置 1采集网址规则 首先选择站点测试1,任务名按照你要采集的对象命名,例如新闻。

  采集网址深度, 就是网站结构的深度,默认为1或则0,如果须要采集更深入,可以选择2,网站编码设为 自动辨识即可,检测重复网站保持默认不变, http 获取方法,根据情况而定,默认为get 式,点击向导添加按键,进入添加网址页面10 常用的就是单挑网址和批量多页,在地址栏输入你要采集的网站地址,点击添加,地址 就会手动保存到下边,点击完成即可,批量/多页用到的情况是,一个页面有多个子页面的 情况下使用,例如,一个城市页面,子页面有公交线路,旅游景致之类的情况下使用。点击 完成后,回到了上一个界面,点击右下角的“开始测试网址采集”按钮,开始采集网址。 11 在网址采集的结果中,该网站所有目录都被采集了下来,并不是每一个网址的信息就都 需要采集,比如我们只须要 这个目录下的网址,点击“返回更改 设置”回到上一个界面,在文章内容页面的地址必须收录后的文本框中输入 即可 然后重新点击“开始测试网址采集”,进行采集,其结果如下图 那么第一部的采集网址规则设定就完成了 采集内容规则采集内容规则,也就是说你要从才一个页面采集那些信息,然后制订一个公式。在第 一部中,任意选择一个页面地址,然后点击左侧栏的“测试该页”进入到第二部:采集内容 规则界面 12 点击右上角的“测试”按钮,在下边的文本框都会显示该网址的 html 代码,根据这种 html 和自己须要采集的内容拟定标签,在页面内容标签定义中,点击“添加标签”,进入添 加标签定义页面 13 输入标签名,标签名对应所要采集的数据,在该标签页面中,有相应的功能,支持正则 表达式和标签排除,开始字符串和结束字符串即为要采集的数据,例如123开 始字符串为结束字符串为这么采集的数据则为123,文件的下载支持图片,flash 等文件,在自定义固定格式的数据中,有更多格式对网页进行过滤,这里不多讲解 标签规则制订完了之后,点击“确定”按钮保存,回到上一个页面!然后点击页面的“测 试”按钮,使用标签对网页进行过滤,查看疗效,做及时的更改,如果结果没问题,第二部 就完成! 发布内容设置!在该页面中,主要是对采集好的数据进行保存,这里一共有4 种保存方法,第一种则是 直接发送到自己网站的根目录,第二种则是保存 html,txt,cvs。

  3 种文件格式,其中 html 方式,支持 html 模版!第三种则是直接保存至数据库,支持的数据库有 access,mysql, sqlserver,oracle,4 种,数据库形式,需要先构建好数据库和表。第四种则是保存为sql 文件保存及部份中级设置15 第四部主要是对运行任务的管理,图片,flash 文件的保存进行管理,支持FTP。 这四部完成了之后,点击保存按键,采集设计就完成了 d)任务采集!保存后手动回到优采云的主界面。选择要采集的任务 点击开始按键即可,或者,右键该任务,选择“开始任务采集”优采云就开始根据拟定的规则 开始采集信息了 其他 优采云支持定时任务功能 16 可以制订详尽的计划,对指定的网站进行定时采集功能,支持多任务

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线