免规则采集器列表算法(25、主从服务器分布式采集更新日志优采云采集器v7.6)

优采云 发布时间: 2021-11-20 20:02

  免规则采集器列表算法(25、主从服务器分布式采集更新日志优采云采集器v7.6)

  25、Mongodb数据库保存数据

  26、主从服务器分布式采集

  更新日志

  优采云采集器v7.6 绿色正式版更新列表:

  1、gif图片不再加水印。修复添加水印文本时不判断水印条件的问题;

  2、 新增迅雷快传、云文件、千脑、金山网盘的文件上传功能;

  3、 增加了用户在删除记录时选择是否删除下载文件的选项;

  4、 添加日志记录,通过上传文件功能;

  5、新增批量导入数据导入URL功能;

  6、 新增发布时代理功能;

  7、修复了使用一般的side-posting方式保存为本地excel不生效的问题;

  8、 文件保存格式支持[Tag:ID],记录的id可以作为目录的一部分;

  9、 处理了$编码错误的问题;

  10、添加几个错误检查,防止采集器退出;

  11、 将汉字替换为拼音字典,汉字增加到18000个;

  12、更新自动补全链接中迅雷地址补全错误的问题。

  软件安装说明:

  优采云采集 平台定义了统一的接口规范,并提供了大量的API。用户可以轻松开发自己的应用程序并在平台上运行,可以减少开发时间和成本。目前平台有官方内置的优采云采集器。

  本软件版本为优采云采集器v7.7绿色正式版,下载软件后直接解压即可。注意:软件运行时,必须有.net2.0帧,vista和win7系统用户可能会提示请求管理员权限,请放手。如果没有,请下载!

  安装说明★★

  优采云数据采集 平台要求:您的计算机必须具有.net框架2.0或2.0或更高版本。如果你的采集器打不开,请下载安装框架

  附加 windows .net 框架 2.0

  32位下载地址:

  64位下载地址:

  升级说明

  直接从3.2sp5、2008、2009或2010版本升级到优采云data采集平台最新版本,请运行程序目录下的UpdateToV7.exe并按照提示升级。升级程序不会对原有数据做任何改动,但为防止用户误操作,升级前请备份旧版本数据和配置。备份方法是将原创采集器 做一个完整的副本。

  采集相关术语

  1.采集 规则

  简称规则,V7之前版本的采集规则分为站点规则和任务规则,通常是指任务规则。V7及以后版本采用无级分组管理任务规则,不再有站点规则的概念。所谓采集规则就是采集一个网站或者某个网站栏目网页需要在软件中设置。该设置可以从软件中导出,保存为文件,然后导入到软件中。V7版本的任务规则文件的后缀是.ljobx,之前的站点规则文件的后缀是:.lsite;任务规则文件的后缀是.ljob。

  2.采集任务

  采集 任务也简称为任务。它是 采集 规则和发布规则的总和。也是采集规则和发布规则的载体。采集在任务编辑框中设置规则和发布规则。从采集器 导出的采集 规则文件(带有.ljobx 后缀)也可以称为任务规则。导入导出任务规则是指导导入导出.ljobx文件。

  3.发布模块

  发布模块,又称模块和发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块,就是当已经采集的数据需要发布到目的地(例如:网站/在后台或指定的数据库中)时,软件中的设置。这个设置可以保存为文件,可以导入到采集器中使用。数据库发布模块文件后缀为.dpm;WEB在线发布模块文件后缀为.wpm。(采集规则和发布模块可以从采集器中导出,也可以导入到采集器中使用。采集规则负责网页上的数据采集接下来,发布模块负责将采集的数据发布到网站。可以看出,采集的规则的编写和修改与采集的网站有关,而release模块的编译和修改与网站有关@> 要发布的数据。例如,从不同的网站列采集数据到同一网站的某一段(在频道中发布),需要多个采集规则和一个发布模块. 要将一个网站列采集的数据发布到不同的网站系统,需要一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站的设置和要抓取的内容。)与采集的网站有关,而发布模块的编译和修改与要发布的数据的网站有关。例如,从不同的网站列采集数据到同一网站的某一段(在频道中发布),需要多个采集规则和一个发布模块. 要将一个网站列采集的数据发布到不同的网站系统,需要一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站的设置和要抓取的内容。)与采集的网站有关,而发布模块的编译和修改与要发布的数据的网站有关。例如,从不同的网站列采集数据到同一网站的某一段(在频道中发布),需要多个采集规则和一个发布模块. 要将一个网站列采集的数据发布到不同的网站系统,需要一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站的设置和要抓取的内容。)从不同的网站列采集数据到同一网站的某一段(在频道中发布),需要多个采集规则和一个发布模块。要将一个网站列采集的数据发布到不同的网站系统,需要一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站的设置和要抓取的内容。)从不同的网站列采集数据到同一网站的某一段(在频道中发布),需要多个采集规则和一个发布模块。要将一个网站列采集的数据发布到不同的网站系统,需要一个采集规则和多个发布模块。注意这里提到的采集规则是指采集网站的设置和要抓取的内容。)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线