数据采集平台2.0架构设计横空出世

优采云发布时间: 2021-08-14 07:04

数据采集平台2.0架构设计横空出世

　　抖音、快手data采集、短视频监控大屏、data采集视化大屏

　　本文介绍了data采集-data采集控大屏过程中必不可少的神器。如果想了解data采集过程中的一些技术，请参考我的其他文章文章，文末有两个数据链接采集文章。

　　如需data采集interface SDK，请点击查看接口文档

　　先看下面三张图：

　　三张图，在不同的时间段，对应的采集日数据量分别为10万、30万、110万。我不断刷新我设置的单日采集数据量记录。有些人可能会好奇。为什么采集最近两天收到的数据量激增？偷偷告诉大家，这两天是新架构设计完成后开始测试的两天。首日轻松达到53W数据，突破此前极值。数值几乎翻了一倍，第二天就突破了100W。因此，前槽是新架构开发和测试的时间。图片来自data采集monitoring大屏，完整图如下：

　　从上面的截图可以看出，目前数据平台采集总共有近700W的数据，采集每天的数据已经达到110W以上，每天的处理任务量已经达到30W或者更多，可以查看不同业务渠道采集接收到的不同数据量。建设这块大屏的初衷，是为了监控采集平台的数据各方面的表现。在优化采集平台性能的同时，监控大屏也在不断优化自身性能，占用的平台资源越来越少。最大的优化是每日采集数据量统计图。随着数据量的不断增加，不仅平台压力越来越重，监控大屏的性能也越来越差，统计的阻塞次数也越来越多。这个块号监控内存中线程的阻塞情况。算了，如果这个数字越来越大，最直接的后果就是崩溃了。每天的数据量还在增加，业务在不断扩大，硬件资源这么多。迫切需要寻找新的解决方案。在这个场景下，data采集平台2.0架构设计横空出世，解决了所有拥塞问题，每日采集数据量从30万增加到110万，理论值从50万增加到 160 万。 data采集平台2.0架构设计为未来数据爆炸预留空间，支持分布式横向扩展。这样，随着未来数据的增长，升级变得非常简单。下一篇文章主要介绍这款大屏。

　　监控大屏介绍

　　监控画面主要采用数据可视化技术对采集平台进行监控，定期刷新平台运行数据。通过这个监控画面，发现了平台的死锁问题。当时问题很隐蔽，平台没有报错，数据还在不断增加。隔着大屏幕，我发现数据增长变慢了一些。有几个表在数据库中没有数据。后来开始排查，发现了一个平台死锁问题。如果问题没有被发现，后续的损失将变得无法控制。大屏监控功能如下：

　　1.每日采集数据量：计算采集每天最近收到的平台数据量，判断一段时间内平台的健康状况和负载。可以根据该指标制定性能测试计划。