优采云采集器 中文版
优采云 发布时间: 2020-08-26 16:06优采云采集器 中文版
《优采云采集器电脑版》这款优采云软件的采集程序有支持远程下载图片文件,支持网站登陆后的信息采集,支持侦测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许*敏*感*词*特性。
软件功能
优采云采集器(www.ucaiyun.com)是一款功能强悍且便于上手的专业采集软件,强大的内容采集和数据导出功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是哪些系统,都有可能使用上优采云采集器。
系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz峰会,phpcms文章,phparticle文章,LeadBBS峰会,魔力峰会,Dedecms文章,Xydw文章,惊云文章等的模块文件。
更多cms模块请自己参照制做更改,也可到官方网站与你们交流制做。同时您也可以使用系统的数据导入功能,利用系统外置标签,将采集到的数据对应表的主键导入到本地任何一款Access,MySql,MS SqlServer内。
www.ucaiyun.com采用Visual C#编撰,可独立在Windows2008下运行(windows2003自带.net1.1框架。
最新版的优采云采集器是2008版,需要升级到.net2.0框架能够使用),如您在Windows2000、Xp等环境下使用,请先到谷歌官方下载一个.net framework2.0或更高环境组件。优采云采集器V2009 SP2 04月29日。
数据抓取原理:
优采云采集器怎样去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采出来,这就是采网址。程序按您的规则抓取列表页面,从中剖析出网址,然后再去抓取获得网址的网页里的内容。
再按照您的采集规则,对下载到的网页剖析,将标题内容等信息分离开来并保存出来。如果您选择了下载图片等网路资源,程序会对采集到的数据进行剖析,找出图片,资源等的下载地址并下载到本地。
数据发布原理:
在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方法对数据进行处理。
1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您若果只是查看数据,直接用相关软件打开查看即可。
2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的疗效。
3、直接入数据库。您只需写几个SQL句子,程序会将数据按您的SQL句子导出到数据库中。
4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
工作流程:
优采云采集器采集数据是分成两个步骤的:一是采集数据,二是发布数据。这两个过程是可以分开的。
1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容就是将数据发布到自己的峰会,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。
具体的使用似乎是太灵活的,可以按照实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,优采云采集器的强悍功能之一也就是彰显在灵活中。
软件术语
采集规则:
采集规则分为站点规则和任务规则,通常是指任务规则。所谓采集规则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件里导入保存成一个文件并可以再导出到软件里。站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。
采集任务:
采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导入的采集规则文件(.ljob后缀的)也可称为任务规则。导入导入任务规则就是指导出导入.ljob文件。
发布模块:
发布模块又称为发布规则,通常是指数据库发布模块或则WEB发布模块。所谓发布模块就是在须要将早已采集的数据发布到目的地(比如:指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导出到采集器里使用。数据库发布模块文件的后缀名为:.jhc;WEB在线发布模块文件的后缀名为:.cwr。
(采集规则和发布模块都可以从采集器里导入,也都可以导出到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。
可见,采集规则的编撰和更改和被采集的网站有关系,而发布模块的编撰和更改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个蓝筹股(频道)里发布,需要多个采集规则和一个发布模块。
从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这儿的说的采集规则是指采集网站和抓取内容的设置。)
发布插口:
发布插口就是一个小的页面程序一般和WEB发布模块配合使用。WEB在线发布(使用WEB发布模块)是将采集的数据以POST方法发送到网站页面程序中由网站程序处理数据。而发布插口就是为了满足特定需求而写的一个网站的页面程序(如:PHP页面,ASP页面等)。
然后采集器通过WEB在线发布将数据发送到这个插口文件由这个插口文件处理数据。接口文件一般置于服务器网站某个目录下。简单的说就是采集器将采集的数据发送到插口文件中,接口文件得到数据后去处理数据。使用发布插口用户可以愈发灵活自由的处理采集器发送的数据。
插件:
优采云采集器里的插件分为PHP插件和.NET插件两种。标准版支持PHP插件,企业版支持PHP插件和.NET插件。插件可以使用户通过自己写PHP程序或则.NET程序放在采集器中对采集的数据进行处理。
采集数据数据在四个地方可以使用插件,分别为:采网址时、采内容时、采多页时,保存时。
发布数据:
发布数据就是将采集到的数据发布到指定的目的地,优采云采集器支持四种发布形式。
方式一:Web在线发布到网站
这种发布形式类似于在网站后台手工添加数据一样。采集器将数据发送给网站后台程序,由网站后台程序去处理数据一般后台程序讲数据存入网站数据库中。
方式二:保存为本地文件
这种方法可以将采集的数据发布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。
方式三:导入到自定义数据库
这种方法可以通过采集器联接到其他数据库因而将采集的数据从软件外置数据库中导出到其他的数据库中,采集器支持联接Mysql、Access、Oracle、MSsql数据库。
方式四:保存为本地Sql文件(Insert句子)
这种方法是将采集的数据导入保存成Insert句子,可以用于在数据库的管理工具中执行插入数据。
本地编辑数据:
采集器除了可以采集发布数据,还可以将采集下来的数据经过编辑之后再发布。支持批量替换,通过SQL句子批量处理以及在文本编辑框里编辑。
软件更新
2012-05-16更新:
1、屏蔽掉httpwebpost中浏览器的脚本错误提示。
2、修复使用偏好中的采集器没有开机启动和关掉窗口选项没有启用的bug。
3、对mysql和sqlserver做本地服务器建了索引,解决了大数据量时查询出错的问题。
4、细节更改,如在线发布上面的COOKIS可以全选,多页默认传前页user-agent给多页。
5、增加了多个任务在只使用一个任务运行窗口,减少资源使用。
6、更改任务运行完死机形式为只生效一次。
7、修复一个当多页获取为空时网址成默认页的bug。
8、插件中没有处理UseGetStepUrls的bug。