专业知识:互联网从业人必须知道的「用户行为数据收集系统」

优采云 发布时间: 2022-10-09 22:13

  专业知识:互联网从业人必须知道的「用户行为数据收集系统」

  马云曾在一次演讲中提到:“人类正在从 IT 时代走向 DT 时代”。所谓DT时代,就是大数据时代。

  大数据时代已经到来,几乎所有企业都意识到数据蕴含的巨大价值,纷纷组建了自己的大数据团队,对用户数据进行采集和分析,挖掘潜在价值。那么,大数据的价值体现在哪些方面呢?在我看来,它的价值主要包括以下几点:

  1、辅助决策:分析用户的各种行为,形成统计分析报表,辅助日常产品操作和调优。管理层可以通过数据报告了解公司的业务发展情况,从而做出相应的战略决策。

  2、驱动业务发展:通过数据更好地了解用户需求和产品响应。使用行为日志还原用户操作场景,了解用户决策模式,发现产品不足,优化产品结构,提升用户体验。

  3、实现产品智能化,提升变现能力:细分用户群体,精准运营。结合用户画像系统,针对细分群体采取不同的运营策略,提高运营效率,节约成本;挖掘用户偏好,为个人用户提供个性化服务,“跟随他们的喜好”,提供更好的产品体验,实现产品智能化,有效促进交易,增加收益。

  图1 大数据金字塔模型(转自极数蜗牛)

  大数据的价值演化过程如上图1所示。从大数据中挖掘巨大潜在价值的前提是尽可能多地采集数据。本期我们将通过一系列文章来介绍如何设计用户行为数据采集系统,分为4个部分,分别介绍整体架构设计、客户端SDK设计、数据接收端设计、监控&高可用性设计。本文为第一篇,介绍整体架构设计。

  系统目标和核心功能

  数据采集​​系统的核心设计目标,简而言之,就是以尽可能少的资源成本,及时、稳定地采集尽可能多的数据。其核心功能和要点如下。

  01

  采集尽可能多的数据

  大数据时代,数据为王。为了让数据发挥其价值,一方面,数据量需要足够大,这样才能有足够多的分析样本具有统计意义。另一方面,数据维度应尽可能全面,数据质量应尽可能高。因此,在埋葬用户行为时,需要尽可能多地采集围绕关键业务的相关信息,尤其是核心业务信息,因为采集数据的最终目的是进行业务分析,从而挖掘数据价值,为优化产品和服务。带动业务发展。比如对于电商行业来说,核心的商业信息就是围绕交易的各种维度数据,比如用户属性、商品属性、消费场景、订单属性、支付信息等。围绕核心数据的分析可以帮助有效促进交易。价值不言自明。

  02

  节省资源

  

  采集的数据量越大,传输所需的网络带宽就越多,将数据存储在磁盘上的存储成本就越高,挖掘数据的计算和分析资源也就越多。但是,资源总是有限的,因此提高资源利用率,节约资源就显得尤为重要。这涉及到数据压缩、数据合并、合理的文件格式等问题,后续文章会详细介绍。

  03

  高可用性

  从客户端采集的数据不断地传输到服务器。如果接收服务短时间宕机,可能会丢失数万甚至数百万的数据,导致数据不连续和质量下降。因此,服务器的高可用性是稳定采集的重要前提。因此,在设计架构时,要充分考虑高可用的设计,同时对监控和自动化处理有一定的要求。

  04

  可追溯性

  数据的流动需要经过多个环节。每条数据都必须有自己的ID,作为数据的唯一标识,并具有一定的中间处理环节信息,从而可追溯。这个非常重要。在数据ETL过程中,数据的安全验证、去重、过滤脏数据都需要依赖这个机制。

  05

  即时的

  大数据的重要特征之一是数据的时效性。数据越新鲜,价值越大,因为越接近用户行为发生的时间点,越能反映用户的最新情况。因此,保证实时性也是系统设计的重点,其核心点是尽可能缩短中间环节的耗时,减少链路上的损耗。

  数据流流程及模块组成

  数据采集的一般过程如下: 用户行为产生数据。客户端SDK经过一系列处理后,通过网络上报。中间需要经过DNS解析和负载均衡机制到达数据接收端,然后接收端进行简单的处理。,将其丢弃以进行存储或进入其他系统。如图2所示:

  图 2. 数据流程

  从上图也可以看出,数据采集过程主要分为三个*敏*感*词*的负载均衡服务,接收数据后分配给数据接收。集群中各个处理器的作用是对等的,便于后续横向扩展。收到数据后,需要做简单的处理,打上溯源码,进行数据合法性验证等,然后存储或流入其他系统。

  系统设计的矛盾

  

  01

  效率和实时性

  为了追求数据的实时性,需要数据产生后立即上报,但这会产生大量的网络请求,传输效率自然会下降。同时也会在高峰期对服务器造成巨大的并发压力。因此,合理的策略是对日志进行分层处理。不同级别的日志使用不同的上传策略。只有少数实时价值巨大、时效性强的行为日志采用即时上传策略。其他的选择客户端先做聚合,然后再上报给服务器。例如,在视频服务应用中,播放行为和广告曝光点击是实时价值高、时效性强的数据,需要立即上传到服务器,但是比如升级行为、页面浏览点击、登录注册、评论等都不是很及时。,可以在客户端汇总,然后一起上报到服务器端。

  02

  采集更多数据并节省资源

  在大数据时代,数据是一切的基础。采集尽可能多的数据可以丰富这个基础。《大数据时代》的作者 Victor Mayer-Schönberger 的观点是尽可能多地采集数据,即使你还不知道它的价值是什么。但是更多的数据意味着需要消耗更多的资源。这显然是一个非常现实的问题。我们的策略是采集数据进行分析。没有人力或计算能力来分析,采集到的数据只是一堆数据,随着时间的推移,它的价值会逐渐降低。一些数据,比如版本功能评估数据,在版本刚上线的时候会采集,但是等一段时间版本稳定,评估结束后,会关闭采集开关,以节省相关资源。

  03

  高可用性和系统复杂性

  数据采集​​系统应该足够稳定,因为任何故障,丢失的数据量都可能是巨大的,错误的数据可能导致错误的决策。因此,在系统设计中会考虑高可用的解决方案,但这可能会增加系统的复杂性,使系统难以维护。我们的策略不是让系统本身实现高可用,而是让监控系统承担部分高可用工作。当出现问题时,监控系统会第一时间发现并自动处理故障,从而实现高可用性。

  以上介绍了设计整体架构时需要考虑的重点和注意事项。相信大家对于如何设计一个用户行为数据采集系统都有一个大概的概念。在后续文章中,我会详细介绍各个模块的具体设计。下一篇将详细介绍客户端SDK的设计。

  -结尾-

  更多精彩内容

  长按扫码关注

  总结反思:考试试卷自己主动生成系统

  可实现题库管理和自生试卷功能,集试题管理、试卷生成、电子答题纸、试题分析于一体。保存、分析和生成考试摘要。

  

  百年树,十年人,教育的成败,决定一个国家的前途和前途。教育现代化和自我激活可以大大提高整个考试过程的效率,减轻教师的工作量,有效推动教学改革,对提高教学质量起到非常重要的作用。

  应用我公司的自动生成报告系统,可以实现题库管理和自动生成试卷的功能。集试题管理、试卷生成、电子答卷、试题分析于一体。标准试卷,还可以记录、保存、分析和生成学生成绩的试卷。

  

  本系统还率先使用XSL构建试卷模板,将试题从数据库导出为XML文件,以XML+XSL的形式形成试卷。,系统自动进行电子打标。系统还可以选择手动生成试卷、主动生成试卷、提取现有试卷等多种方式。

  试卷生成管理系统界面友好,可轻松输入试题,试卷生成易于维护(修改和删除试题),设置试卷灵活快捷,查询试题或试题快捷试卷,以适应各种知识更新对试卷难度的要求,还必须有一定的安全性。在系统的总体设计中,充分考虑了以上因素,围绕实用性进行模块设计。例如,编辑模块可以对自己生成的模块实现人工干预,实现试题录入、试题维护、试卷生成等。查询模块实现试题和试卷的高速查询,系统管理系统的安全性。它记录了登录人员的工作编号、用户名和密码。当试卷生成时,系统主动记录工人的工号并存入数据库。整个设计简洁明了,同时操作方便。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线