java抓取网页数据(java抓取网页数据网页中的信息/字体/logo等)

优采云发布时间: 2022-03-28 05:03

　　java抓取网页数据

　　网页中有很多信息，比如，图片、logo、字体等，很多网站都用伪静态。同时，当不停的爬取网页时，很可能下载的是很多个文件夹。如果你想同时获取当前页面中的所有图片/字体/logo等网页源文件，如果是web端，目前的方法是：用nodejs+express+mongodb，前端负责抓取请求分析，这个后端根据url去分析数据库建表，数据库一般有关系型数据库mongodb和mysql，也有关系型数据库mongodb2，甚至有连接数据库事务编程引擎postgresql...java一般封装对应服务器（web端用go）即可；apache写脚本，考虑封装的时候，需要简单封装url，比如urlurl+url之类的；nodejs/express/mongodb封装起来才是真正的完整的服务端框架，然后在apache/nginx集群上跑。

　　对于db很多，网站很大，如果有足够时间，所有的数据都要记录成文件：request对象+mongodb，要做到上图对于一个网站全部都是同步抓取，有几种方法：用beammanagement+dubbo=？-阮一峰的网络日志那本书（阮一峰后面还有类似模块，写好spring应用封装）；用express这样的nginx服务器，通过beammanagement+dubbo+spring，或者用nodejs+beammanagement+spring这样的也可以，具体的demo可以参考网上的例子。

0

2022-03-28

java抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java抓取网页数据(java抓取网页数据网页中的信息/字体/logo等)

0 个评论

发起人