c#抓取网页数据库语言初探基于nginx:负载均衡框架设计

优采云 发布时间: 2022-04-29 17:02

  c#抓取网页数据库语言初探基于nginx:负载均衡框架设计

  c#抓取网页数据库语言初探基于nginx:负载均衡框架设计高并发情景模拟分布式下生成html转存数据库数据透析用户名密码用户属性giveron

  是想从网页里爬取数据吗?看你的需求,比较简单的建议用java写web服务,然后在用nginx做负载均衡就可以了。

  作为一个用过webscrapy的渣渣,我想说这是个坑,真的超超超坑!重点是java目录权限不够。

  网页抓取很简单,比如你有一个网站,实时的抓取每个用户的页面,那么你只需要通过java抓取器,把这个网站分成小块进行分段抓取就可以了。如果分段分片的页面太多,你可以通过建立一个分片文件夹,分别存放你抓取到的页面,然后你写一个javashell脚本,抓取每个分片就可以了。分段是自动化的,一个用户一个分段,非常方便。

  你可以通过java做定向的抓取,这样应该算有高并发的需求,那么,就要用到springboot,mybatis,jspcontroller,

  单例模式

  解决方案1:spring。

  网页显示的方式有很多,有些需要源码和控制层,有些纯html。如果通过现成的工具就可以自动将jscss爬取下来,通过selenium或者shiro,就可以做到。如果要通过java去爬取网页,那么前后端必须分离。不然是无法成功抓取的。所以楼主的需求不够高并且手续繁琐,可以考虑自己写一个抓取工具。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线