java抓取网页数据(java抓取网页数据网页中的信息/字体/logo等)
优采云 发布时间: 2022-03-28 05:03java抓取网页数据(java抓取网页数据网页中的信息/字体/logo等)
java抓取网页数据
网页中有很多信息,比如,图片、logo、字体等,很多网站都用伪静态。同时,当不停的爬取网页时,很可能下载的是很多个文件夹。如果你想同时获取当前页面中的所有图片/字体/logo等网页源文件,如果是web端,目前的方法是:用nodejs+express+mongodb,前端负责抓取请求分析,这个后端根据url去分析数据库建表,数据库一般有关系型数据库mongodb和mysql,也有关系型数据库mongodb2,甚至有连接数据库事务编程引擎postgresql...java一般封装对应服务器(web端用go)即可;apache写脚本,考虑封装的时候,需要简单封装url,比如urlurl+url之类的;nodejs/express/mongodb封装起来才是真正的完整的服务端框架,然后在apache/nginx集群上跑。
对于db很多,网站很大,如果有足够时间,所有的数据都要记录成文件:request对象+mongodb,要做到上图对于一个网站全部都是同步抓取,有几种方法:用beammanagement+dubbo=?-阮一峰的网络日志那本书(阮一峰后面还有类似模块,写好spring应用封装);用express这样的nginx服务器,通过beammanagement+dubbo+spring,或者用nodejs+beammanagement+spring这样的也可以,具体的demo可以参考网上的例子。