免规则采集器列表算法(一下易读小说系统官网为:功能模块和文件目录结构基本参照杰奇 )

优采云 发布时间: 2021-11-21 14:07

  免规则采集器列表算法(一下易读小说系统官网为:功能模块和文件目录结构基本参照杰奇

)

  其实今天给大家推荐的是易读小说系统,这是一个java写的web程序。功能模块和文件目录结构基本参考杰奇。值得注意的是,有一个官方的 采集器 脚本也是用 Java 编写的。正因为如此,这个脚本在Linux下也能正常运行。我在本地用jieqi1.8作为程序,安装好,最后配置jdk1.6,然后采集器就基本正常了采集。但是不显示封面图采集,也不会自动生成目录结构文件。但是,这是我第一次使用它,可能没有正确配置。

  这套可以在linux下运行的采集器脚本叫做易大师采集器,兼容采集器的规则,windows和linux下都可以运行。运行条件为java环境。采集 速度还是比较快的。但是官方并没有详细的教程。第一次接触真的会混淆很久。今天下午试了一下安装运行,所以整理一下教程。

  易读小说系统官网是:

  我测试的系统是:CentOS6.5

  详细教程:

  1.首先需要准备工具,jdk1.6和采集器脚本,我已经整理好了,脚本里也丢了一个采集规则

  下载链接:点击进入

  密码:nusj

  2.安装jdk1.6(正式版就是这个版本)

  linux服务器进入jdk-6u45-linux-x64-rpm.bin文件所在目录后,运行以下命令:

  chmod +x jdk-6u45-linux-x64-rpm.bin

./jdk-6u45-linux-x64-rpm.bin

  全部执行完成后,检查是否安装成功,运行以下命令:

  java -version

  正确的提示是:

  java version "1.6.0_45"

Java(TM) SE Runtime Environment (build 1.6.0_45-b06)

Java HotSpot(TM) 64-Bit Server VM (build 20.45-b01, mixed mode)

  3.修改采集器配置文件,大概解释一下

  category.ini 分类对应文件

collect.ini 采集生成设置文件

jdbc.properties 数据库连接文件

run.ini 采集规则运行文件

site.ini 网站全局信息配置文库

  采集 规则放在rules目录下

  4.最后直接在采集器的目录下,运行:

  sh start.sh

  这时候只要网站安装正常并且信息没有错误,就会开始正常采集,但值得注意的是在Linux系统中用full command说明,最好安装并运行安装屏幕并创建一个新窗口。否则,您可能会关闭连接,采集 进程将停止。具体说明如下:

  yum install screen

screen -S cj

  当然,有些系统自带这个软件。

  最后,这是我采集时的截图:

  

  规则之树版权,已加入百度保护原创,转载并注明出处

  喜欢 0

  报酬

  千山万水相亲相爱,可否赏赐我?报酬

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线