解决方案:互联网从业人必须知道的「用户行为数据收集系统」

优采云 发布时间: 2022-12-11 06:42

  解决方案:互联网从业人必须知道的「用户行为数据收集系统」

  马云曾在一次演讲中提到:“人类正在从IT时代走向DT时代”。所谓DT时代就是大数据时代。

  大数据时代已经到来,几乎所有的企业都已经意识到数据所蕴含的巨大价值,纷纷成立了自己的大数据团队,对用户数据进行采集和分析,挖掘潜在价值。那么,大数据的价值体现在哪里呢?在我看来,它的价值主要有以下几点:

  1、辅助决策:分析用户的各种行为,形成统计分析报告,辅助日常产品运营和优化。管理层可以通过数据报表了解公司的业务发展状况,从而做出相应的战略决策。

  2. 驱动业务发展:用数据更好地理解用户需求和产品响应。利用行为日志还原用户操作场景,了解用户决策模式,发现产品缺陷,优化产品结构,提升用户体验。

  3、实现产品智能化,提升变现能力:细分用户群体,精准运营。结合用户画像体系,针对细分群体采取不同的运营策略,提高运营效率,节约成本;挖掘用户偏好,为个人用户提供个性化服务,“随心所欲”,提供更好的产品体验。实现产品智能化,有效促进交易,增加收益。

  图1. 大数据金字塔模型(转自极数蜗牛)

  大数据的价值演化过程如上图1所示。从大数据中挖掘巨大的潜在价值的前提是尽可能多地采集所需的数据。本期我们将通过一系列文章来介绍如何设计用户行为数据采集系统。分为4篇,分别介绍整体架构设计、客户端SDK设计、数据接收端设计、监控&高可用设计。本文为第一篇,介绍整体架构设计。

  系统目标和核心功能

  数据采集​​系统的核心设计目标,简言之,就是以尽可能少的资源消耗,及时、稳定地采集尽可能多的数据。其核心功能和要点如下。

  01

  采集尽可能多的数据

  大数据时代,数据为王。数据要发挥其价值,一方面需要数据量足够大,这样才能有足够的分析样本才具有统计意义。另一方面,数据维度要尽可能全面,数据质量要尽可能高。因此,在埋点用户行为时,需要围绕关键业务尽可能多地采集相关信息,尤其是核心业务信息,因为采集数据的最终目的是为了进行业务分析,从而挖掘数据对优化产品和优化产品的价值。带动业务发展。例如,对于电子商务行业,核心业务信息是围绕交易的各种维度数据,如用户属性、产品属性、

  02

  节省资源

  

  采集的数据量越大,传输所需的网络带宽就越大,存储数据所需的存储成本就越高,挖掘数据所需的计算和分析资源也就越多。但是,资源总是有限的,提高资源利用率,节约资源就显得尤为重要。这涉及到数据压缩、数据合并、合理的文件格式等问题,将在后续文章中详细介绍。

  03

  高可用性

  从客户端采集的数据源源不断地发送到服务器端。如果接收服务短时间宕机,可能会丢失数万甚至数百万的数据,造成数据不连续,从而导致质量下降。因此,服务器的高可用是稳定采集的重要前提。因此在架构设计时,需要充分考虑高可用的设计,同时对监控和自动化处理也有一定的要求。

  04

  可追溯性

  数据传输处理需要经过多个环节。每一条数据都必须有自己的ID作为数据的唯一标识,并且必须有一定的中间处理环节信息,这样才能具有可追溯性。这个非常重要。在数据ETL过程中,数据安全校验、去重、脏数据过滤等都依赖于该机制。

  05

  即时的

  大数据的重要特征之一是数据的时效性。数据越新鲜,它的价值就越大,因为越接近用户行为发生的时间点,反映用户的最新情况,可以做的事情就越多。因此,保证实时性也是系统设计的一个重点,其核心点是尽可能缩短中间环节的耗时,减少链路上的损耗。

  数据流转过程及模块组成

  数据采集​​的大致流程如下: 用户行为产生的数据经过客户端SDK处理,然后通过网络上报。中间需要经过DNS解析和负载均衡机制到达数据接收端,然后由接收端进行简单的处理。,放入磁盘存储或进入其他系统。如图2所示:

  图 2. 数据流转过程

  从上图也可以看出,数据采集流程主要分为三个*敏*感*词*的负载均衡服务,接收到数据后分配给数据接收。集群处理,集群中的每个处理器具有平等的作用,便于后续横向扩展。接收到数据后,需要做简单的处理,标注追溯码,进行数据合法性校验等,然后存储或流向其他系统。

  系统设计的矛盾

  

  01

  效率和实时性

  为了追求数据的实时性,需要在数据产生后立即上报,但这会产生大量的网络请求,传输效率自然会下降。同时在高峰期会对服务器造成巨大的并发压力。因此,合理的策略是对日志进行分类。不同级别的日志采用不同的上传策略。只有少数实时价值大、时效性强的行为日志采用即时上传策略。还有的选择先在客户端聚合,然后再一起上报给服务端。例如,在视频服务应用中,播放行为和广告曝光点击是实时价值高、时效性强的数据,需要立即上传到服务器,

  02

  采集更多数据并节省资源

  大数据时代,数据是一切的基础。只有采集尽可能多的数据,才能充实这个基础。《大数据时代》的作者 Victor Mayer-Schönberger 就是要采集尽可能多的数据,即使你还不知道它的价值是什么。但是更多的数据意味着需要消耗更多的资源。这显然是一个非常现实的问题。我们采用的策略是采集数据进行分析。如果没有人力或算力进行分析,采集到的数据只是一堆数据,其价值会随着时间的推移而逐渐下降。有些数据,比如版本功能测评数据,在版本刚上线的时候会采集,但是等一段时间版本稳定,测评结束后,

  03

  高可用性和系统复杂性

  数据采集​​系统必须足够稳定,因为在任何故障中,丢失的数据量都可能是巨大的,错误的数据可能会导致错误的决策。因此,在系统设计时会考虑高可用方案,但这可能会增加系统的复杂度,使系统难以维护。我们的策略是不让系统自己实现高可用,而是由监控系统来承担部分高可用工作。当出现问题时,监控系统会第一时间发现,并自动处理故障,实现高可用。

  以上介绍了设计整体架构时需要考虑的重点和注意事项。相信大家对如何设计用户行为数据采集系统都有一个大概的了解。在后续的文章中,我会详细介绍各个模块的具体设计。下一篇文章将详细介绍客户端SDK的设计方案。

  -结尾-

  更多精彩内容

  长按扫码关注

  内容分享:百灵鸟微信营销软件十四个功能最全详细介绍

  支持分享文章到朋友圈功能。当用户点赞一个文章或者想分享自己的文章时,可以像手机微信操作一样快速分享文章到朋友圈,增加曝光度和增加知名度。

  6、采集QQ号营销渠道更广

  可以根据需要的条件采集定位QQ号,采集方法灵敏强大,支持QQ空间采集访客,采集定位QQ好友等。 ,充分满足您的营销需求,最大限度的考虑客户利益,是您微信营销的得力助手。

  7.添加群聊好友

  支持在群聊中添加他人为好友功能,大大扩展了微信营销软件的功能覆盖面,使用起来更加方便,让微信推广营销更加全面。是您进行微信营销的必备选择。

  8.一键初始化虚拟机

  

  对于部分对软件安装有疑问的客户,我们支持一键初始化虚拟机功能,尽最大努力为客户提供极速的服务。

  9、模仿真实定位让微信营销无处不在

  微信营销软件可随时随地模拟真实位置,随意获取所需区域附近的微信用户,使营销目标更加精准,并可随时更改模拟位置,让您的营销有条不紊真正灵敏准确,大大提高您的微信营销成功率。

  10.多个账号重复使用,多个素材随意修改

  支持多账号循环登录,可批量导入使用QQ号、手机号、微信,支持添加多种素材,用户使用时可选择全部素材或只使用勾选的素材,并可修改用户素材顺序或随机选择要修改的应用程序文件。

  11.自动批量添加好友

  添加好友可以批量导入需要添加的账号,自动完成。支持QQ号、手机号、微信号,可以使用手机号快速添加。可以快速查看附近的人,添加附近人的好友,可以设置连续添加。几个账号后,延迟一段时间或切换到下一个账号添加。

  

  12.多条语音消息随机选择发送

  支持添加多条消息,灵活发送消息,可选发送所有消息或用户选择的消息,也可以一条一条发送用户使用的消息或随机消息,大大扩展了微信消息发送的灵活性,提供用户拥有前所未有的便当。

  13.批量发送朋友圈

  可以发朋友圈动态,支持批量点赞,微信朋友圈批量评论文章添加多条评论,可以根据需要使用所有评论或者使用用户查看评论,可以选择顺序使用的评论或者随机的。.

  14.自动切换IP,灵敏设置参数,避免封锁

  内置自动IP更改模块(通过ADSL、路由器、IP更改)、随机参数,以及多账户轮询工作、验证码人工协助等功能模块,有效防止堵塞提高微信营销的成功率。

  下载链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线