文章定时自动采集(文章定时自动采集的目录和定时采集(采用phpmyadmin-ss))
优采云 发布时间: 2021-08-30 10:02文章定时自动采集(文章定时自动采集的目录和定时采集(采用phpmyadmin-ss))
文章定时自动采集,目前仍然采用批量采集(采用phpmyadmin-ss可以设置gzip),采集目录:-ss/大文件批量采集,因此做了定时器。欢迎批评指正!定时采集的目录如下:public/author/changelogspublic/author/timespublic/author/tagspublic/author/subjectspublic/author/contentindex/topic/my-review。
运用phpmyadmin管理上万数据库,进行数据筛选,汇总,分类,归档等等。
我们团队用了mysqlmongodb,分别用java和php写,都是想共同做一些好玩有趣的事情。有兴趣的同学可以一起玩一玩。
纯技术难度不高,就是成本问题,几万十几万台服务器全部加起来就是笔不小的开支,你可以考虑国内知名软件公司都在用rubytornado,
phpmyadmin是一个以mysql为基础的数据库管理工具,适合用于存储mysql数据。除了web端,也可以用于服务器端。方便你管理数据库。
目前还没有自己写过spark也没有用过,所以只能帮你推荐工具。如果没有spark,python有个apilite可以跟mysqldesktop交互,spark貌似还可以跟数据库交互。对了,python有scikit-learn。
可以考虑自己定制相关功能,用户可以根据自己的业务场景,自己定制相关参数,实现功能,然后采集出来再往后续维护或者提供给企业。比如,你只分析商品销售数据,就可以用数据库和postgresql对两个数据库加权平均。如果场景更复杂,postgresql不足以满足需求,就可以用python语言写简单封装来方便使用。