springcloud架构技术优劣性系统优点及优点(一)
优采云 发布时间: 2021-07-24 00:12springcloud架构技术优劣性系统优点及优点(一)
前言
因公司业务需要,需要获取客户提供的微信公众号文章的历史记录并每天更新。很明显,300多个公众号不能每天人工查,问题提交给IT团队。对于那些喜欢爬虫的人,我绝对想要他。之前做过搜狗的微信爬虫,之后一直在做java web。这个项目重新点燃了我对爬虫的热爱。首次使用spring cloud架构做爬虫。历时20多天,终于搞定。接下来我将通过一系列文章分享项目经验,并提供源码供大家指正!
一、系统介绍
本系统基于Java开发。只需配置公众号或微信公众号,即可定时或即时抓取文章微信公众号(包括阅读、点赞、观看)。
二、系统架构技术架构
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
存储
Mysql、MongoDB、Redis、Solr
缓存
Redis
代理
提琴手
三、系统优缺点系统优点
1、 公众号配置后,可以使用Fiddler的JS注入功能和Websocket实现自动爬取; 2、系统是分布式架构,高可用; 3、RocketMq 消息队列可以解耦。解决网络抖动导致采集失败的问题。 3次消费不成功,登录mysql,保证文章的完整性; 4、可以添加任意数量的微信信号,提高采集效率,抵抗反爬限制; 5、Redis 在每个微信账号24小时内缓存采集记录,防止账号被封; 6、Nacos作为配置中心,可以通过热配置实时调整采集频率; 7、将采集到将数据存储在Solr集群中,提高检索速度; 8、将捕获返回的记录存储到MongoDB存档中,方便查看错误日志。
系统缺点:
1、通过真机真实账号采集留言,如果需要采集大量公众号,需要有多个微信账号作为支持(如果当天账号达到上限,可通过微信公众平台界面抓取获取消息); 2、不是发完就可以抓到的公众号,采集时间是系统设置的,留言有一定的滞后性(如果公众号不多的话,微信公众号就够了,并且可以通过增加采集来优化频率)。
四、模块介绍
因为管理系统和API调用函数会在后面添加,所以提前封装了一些函数。
common-ws-starter
公共模块:存储工具和实体等公共消息。
redis-ws-starter
Redis模块:对spring-boot-starter-data-redis进行二次封装,暴露打包好的Redis工具类和Redisson工具类。
rocketmq-ws-starter
RocketMq 模块:对 Rocketmq-spring-boot-starter 的二次封装,提供消费重试和记录失败日志功能。
db-ws-starter
mysql数据源模块:封装mysql数据源,支持多数据源,自定义注解实现数据源动态切换。
sql-wx-spider
mysql数据库模块:提供mysql数据库操作的所有功能。
pc-wx-spider
PC端采集模块:收录PC端采集公众号历史相关功能。
java-wx-spider
Java提取模块:收录Java程序提取文章内容相关功能。
mobile-wx-spider
Simulator采集模块:收录与模拟器或手机采集消息交互量相关的功能。
五、通用流程图
六、在PC端和手机端运行截图
控制面板
操作结束
总结
项目亲测上线,项目开发中解决了微信搜狗临时链接永久链接问题。希望能帮助到被类似业务困扰的老铁。如今,做java就像逆流而上。不前进就会后退。我不知道你什么时候参与。祝大家都有属于自己的葵花宝。如果你看到这个,你不给它一个采集吗?
原文链接:/post/6956499860996489230
如果你觉得这篇文章对你有帮助,可以点击首页一起学习进步