自动采集器怎么用(COLL-MZ项目协议LicenseVersion2.0,January)
优采云 发布时间: 2021-10-30 15:12自动采集器怎么用(COLL-MZ项目协议LicenseVersion2.0,January)
#collmz
简介
COLL-MZ项目主要用于采集煎蛋、飞G、姐妹图、秀人网站,以及本地类似的图片、视频等文件,并在浏览器中展示。
特别声明
这个项目主要是个人学习golang开发的第一个测试程序。请不要将本项目用于非法用途。
功能界面预览和浏览界面
采集界面
如何使用
1、将项目下载到任意本地文件;
2、运行collmz-server-..exe文件;
3、浏览器访问:8888可以看到项目,可以在./config/config.json文件中修改端口。
4、初始用户名:,密码:adminadmin
搭建代码编译环境的步骤
1、安装golang语言运行环境,配置环境变量;
2、安装gcc编译环境,并配置环境变量,推荐使用mingw,下载链接:
3、安装golang第三方库:
* goquery
github.com/PuerkitoBio/goquery
* sqlite3
github.com/mattn/go-sqlite3
* session
github.com/gorilla/sessions
4、 下载项目代码,进入golang工作目录任意目录。推荐使用git clone。
5、因为是在win10 x64下开发编译的,所以只能保证在这个环境下运行良好。其他环境请自行排查。
项目地址
Github:
OSchina:
项目协议
Apache 许可
版本 2.0,2004 年 1 月
常见问题
1、不部署代码可以使用吗?
是的,下载整个项目,然后运行exe文件。项目中的controller文件夹可以自行删除。
2、编译失败怎么办?
常见错误主要是sqlite3引起的,因为第三方库是C实现的,需要使用gcc编译器,也就是mingw,所以如果安装了错误的版本,没有配置环境变量,会报错会被举报。 64 位系统必须使用 64 位 GCC 编译。
3、我想建其他采集器在这个结构上怎么做?
控制器下有 coll-children-...go 文件。这些文件都是对应的采集器代码。你可以参考这些代码来编写你需要的采集项目。
您可以使用构建的相关框架。首先在coll.go中注册采集器,这样就可以通过浏览器直接访问采集器;然后你可以创建一个go文件并自己编写代码。没关系。
注意如果是开发中的项目,CollChildren.dev应该尽量等于true,这样在浏览器端容易区分。
CollOperate.Auto...(),这些方法集成在采集工作的大多数情况下,可以极大的方便采集工作。
关于项目逻辑和思维导图
4、采集多快?
由于sqlite3不能开启多个线程,一个采集器只能对应一个并发操作。如果发现重复操作,将自动屏蔽采集过程中浏览数据。
每个 采集器 都有自己的线程。
5、为什么有些采集器不能用?
个别采集器由于国内局域网限制,需要您自己解决问题。
其次,很少有采集的网站有JS动态加载功能和各种阻塞采集工作的功能,所以以后改进后会解决个人发展能力。这些类型的采集器都标有开发状态,可以在采集界面看到。
6、如何修改初始用户名和密码?
我写这篇文的时候想起我没有做这个页面,所以请暂时用sqlite工具打开./content/database/coll-mz.sqlite数据库,修改user表数据。