Java自动采集生成内容系统最有效的自动化采集方法
优采云 发布时间: 2022-05-01 18:01Java自动采集生成内容系统最有效的自动化采集方法
关键词自动采集生成内容系统最有效的自动化采集方法
qkdwiki的采集程序用的就是java,多说两句,咱们做程序的多少要懂点计算机,vc++7.0是底线,至少要懂点c语言,windows编程,有个shell脚本去操作,自动去除用户的自定义浏览器,自动post,抓取程序首先得能熟练运用键盘操作,思维也得敏捷,
现在做,
现在qkdwiki也是用的java。java做采集,一般是先选址采集,当然可以通过其他方式达到目的;选址java也是大多数同类产品采用的方式,但java做大的也就那么几家。而web采集一般是用es库,再加上js。(我是指从网上抓。)其中es库是elasticsearch,es比较简单易用,并且也不需要写网页页面。
就是不愿意用ie浏览器而已。shit。
这个问题,我们在实际工作中遇到过。楼主你认为qkdwiki是用java开发的,
用java做js+selenium+js采集,ie浏览器兼容性挺麻烦的,搞不好还要用网页编辑器去敲js请求。这样的话体验不会太好,也会很占存储空间,效率慢。
纯web端的话还是layan.lajs在线教育平台的版本在不考虑占用网络资源的情况下已经实现了全平台分布式采集需求