智能采集器(智能采集器v1.0.0版本的使用方法)
优采云 发布时间: 2022-02-02 08:00智能采集器v1.0.0版是用C++和wxWidgets开发的GUI图形界面,使用zengl编程语言作为采集规则的脚本语言。这个采集器目前是专门针对Destoon系统v4.0 GBK或UTF8的版本。操作平台:WindowsXP、Windows7、Windows8
采集器的下载地址是:(这是百度盘的共享链接地址)。进入这个链接,可以看到“智能采集器各版本可执行文件压缩包”,请下载最新版本,最新版本为v1.0.5。
采集器的视频教程下载地址为:. 进入这个链接可以看到“Smart采集器v1 Video Tutorial.rar”,压缩包中存放的是exe格式的视频教程。这个视频教程有超过 70 兆字节(49 分钟的视频)。
因为使用方法在视频教程中已经详细介绍过了,这里就不多说了。我们来看看这个程序的目录结构。下载的压缩包解压后,得到如下文件(这里以v1.0. 0为例,其他版本请查看栏目对应的文章):
在这个目录下,“Smart采集器2013PC desktop version.exe”是主程序,“zengl.dll”是Zengl脚本的编译器。比如这个目录下的“initialization script.zl”就是程序启动时会执行的那个。zengl脚本,初始化script.zl文件内容如下:
//此脚本使用zengl编程语言的语法来初始化管理URL。在这个采集器中,也是采集上传接口的文件名
使用内置;
bltSetInitManageUrl('zengl_caiji.php'); //不要加http协议头//这里的注释有误,应该是接口的文件名
bltSetModulePath('article','Module/信息模块rules.zl'); //设置信息模块规则路径,以.zl结尾
bltSetModulePath('quote','Module/quote module rules.zl'); //引用模块规则
bltSetModulePath('special','Module/特殊模块rules.zl'); //特殊模块规则
bltSetModulePath('info','Module/招商模块rules.zl'); //招商模块规则
bltSetModulePath('brand','Module/Brand Module Rules.zl'); //品牌模块规则
bltSetModulePath('mall','Module/Mall Module Rules.zl'); //商城模块规则
bltSetModulePath('group','模块/团购模块rules.zl'); //团购模块规则
bltSetModulePath('sell','Module/Supply module rules.zl'); //提供模块规则
bltSetModulePath('buy','模块/购买模块规则.zl'); //购买模块规则
bltSetModulePath('exhibit','Module/Exhibition 模块规则.zl'); //展览模块规则
bltSetModulePath('job','模块/人才招聘模块rules.zl'); //人才招聘模块规则
bltSetModulePath('know','Module/知道模块rules.zl'); //了解模块规则
bltSetModulePath('photo','Module/Gallery 模块规则.zl'); //图库模块规则
bltSetModulePath('video','Module/Video 模块规则.zl'); //视频模块规则
bltSetModulePath('down','Module/下载模块rules.zl'); //下载模块规则
当然,你完全可以忽略这些以.zl结尾的脚本文件,直接按照视频教程输入网址,点击开始,就可以睡觉了。当然,如果你能理解和修改这些脚本,你可以自定义采集规则,否则就得等作者更新了。
“libcurl.dll”是采集器使用的抓包动态库,zlib1.dll是压缩相关的动态库,两个PHP文件,“mydetectTitle.php”和“zengl_caiji.php”需要上传到服务器根目录下的接口文件网站,其中“mydetectTitle.php”负责将网站的分类信息反馈给采集器 ,而“zengl_caiji.php”负责转换网站@采集器上传的数据会发布到网站。这些在视频教程中有所提及。
area.xml文件存储391个区域数据,test.xml文件是系统获取网站分类信息时创建的临时文件。以.xpm 结尾的文件,例如checked.xpm,都是采集器 图形界面中小图标的特殊格式。splash.png 是 采集器 的启*敏*感*词*面。debuglogs.txt 文件存储了 zengl 脚本编译出现错误(如语法错误等)时的信息。正则表达式 test.txt 是单击 采集器 工具栏中的测试按钮时使用的文件。可以将采集target网站的源代码复制到这个文件中,然后可以在测试对话框中反复测试正则表达式(采集的本质就是使用正则从页面中提取有用信息的表达式,并经过处理和过滤,得到所需的信息)。得到正则表达式后,可以写入到采集规则的zengl脚本文件中。mylogs.txt 是 采集 进程日志文件(不要删除)。
db目录存放着每个网站的分类信息、采集的数据的数据库文件、网站的模块数据等,视频中有详细介绍教程。
各个模块的采集规则文件存放在Module目录下,如下图:
这些zengl脚本文件修改后立即生效,因为采集器会自动编译生成对应的.zlc中间代码文件,通过内置的zengl虚拟机运行中间代码。
这是程序的启*敏*感*词*面:
可以点击机器人的闪屏使其消失,或者等待几秒自动消失。
至于采集的具体方法,请查看视频教程。zengl脚本的语法会在后面的章节中给出,所以大家先感性认识一下。
转载请注明出处,OK,先到这里,歇歇歇歇O(∩_∩)O~