一是人工采集,二是智能采集(人工智能-智能创意平台架构成长之路(一)--长篇开篇)

优采云 发布时间: 2021-09-07 07:11

  一是人工采集,二是智能采集(人工智能-智能创意平台架构成长之路(一)--长篇开篇)

  人工智能-智能创意平台架构的成长路径(一)--长篇开篇

  人工智能-智能创意平台架构的成长之路(二)--大数据架构篇

  人工智能-智能创意平台架构成长之路(三)--机器学习算法工程服务

  人工智能-智能创意平台架构的成长路径(四)-七彩横幅图生成与解密第1部分(对比阿里鲁班的设计)

  人工智能-智能创意平台架构的成长路径(一)--长文开头,继续第一篇。

  (这是第二篇大数据架构文章,成长之路序列将收录多篇文章。作为这个平台的架构和技术经理,我将全面描述悲伤的迭代路径以及中间遇到的问题和解决方案.)

  声明:文章不涉及泄露公司内部技术信息。所涉及的图片都是重新绘制的简单架构图,主要通过架构的演进,讲述技术共享的迭代路径和过程,进行技术交流和探索。

  第二轮迭代完成后,在第三轮迭代中,我们开始分析平台的数据。这里我们以工作台的数据分析为例,说明平台如何利用大数据进行数据分析。

  

  在工作台中,需要进行数据分析,比如平台合成的banner图被用户点击的次数,banner图合成后用户下载的数据,PV/UV情况在工作台上。

  在这一轮设计中,我们直接使用的大数据方案一开始并没有使用关系数据来做这样的数据分析和统计。架构方案如下。我们选择了 Druid 进行数据存储,OLAP 进行数据分析,Druid.io(以下简称 Druid)是一个用于海量数据的 OLAP 存储系统,用于实时查询和分析。 Druid 的四个关键特性总结如下:

  1),亚秒级OLAP查询分析,Druid使用列存储、倒排索引、位图索引等关键技术,可以完成子级海量数据的过滤、聚合和多维分析-第二级。操作。

  2),实时流式数据分析,区别于传统分析数据库采用的批量导入数据分析方式。 Druid 提供实时流数据分析。 LSM(Long structure merge)-Tree结构使得Druid具有极高的实时写入性能;同时实现了亚秒级的实时数据可视化。

  3),丰富的数据分析功能。针对不同的用户群体,Druid 提供了友好的可视化界面、类 SQL 的查询语言和 REST 查询界面

  4),高可用和高扩展性。 Druid 采用分布式 SN(无共享)架构。管理节点可配置HA,工作节点功能单一,互不依赖。这些特性使得 Druid 集群在管理、容错、容灾、扩容等方面都非常简单。 .

  德鲁伊的介绍请参考这个文章。

  

  1、页面上,我们使用采集插件做数据嵌入采集,数据采集通过data采集服务落入kafka。

  2、我们在druid中设计了两张表,数据的粒度精确到分钟时间段,即有分钟表和小时表两个。分钟表数据量可能比较大,所以我们只会保留1个月内的分钟表数据,而小时表数据会长期保存。

  3、 在kafka中,我们创建了两个消费组,一个用于小时消费处理,一个用于分钟消费处理。

  

  4、 在平台的设计中,每个banner图片都有一个唯一的bannerId和url。在数据聚合处理操作中,bannerId成为唯一标志,根据bannerId进行分钟级聚合和小时级处理。聚合过程。

<p>5、 Hive 也可以考虑用于小时级别的聚合处理。处理计划如下。由于分表中的数据会存储1个月,所以1个月内的查询其实就是直接查询分表,1小时表会查询月外的数据。所以这个方案虽然可能有数据采集延迟,但不会延迟长达一个月,所以可以由定时任务处理,定时任务可以在第二天处理前一天的数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线