文章实时采集(【*敏*感*词*分析师】H5埋点数据采集及用户行为分析)

优采云 发布时间: 2021-09-01 18:10

  文章实时采集(【*敏*感*词*分析师】H5埋点数据采集及用户行为分析)

  作者介绍

  @hrd-0.618(徐梵)

  新网*敏*感*词*分析师。

  专注于数据分析、埋点采集和用户行为分析、BI数据可视化。

  “数据人创造者联盟”成员。

  1 背景介绍

  产品精细化运营、千人个性化推荐等各种服务,都依赖于标准化、高质量的嵌入点数据。但是,整个埋点数据的上传、解析、存储、分析过程比较长,需要多团队协作。为了让感兴趣的读者有一个整体的了解,本节将结合工作实践,重点关注H5埋点数据采集以及应用的生命周期。

  2 个埋点采集content

  埋点采集的内容主要包括两个方面:前端埋点data采集,后端埋点data采集。前者主要包括3类事件:用户事件、页面事件、点击事件。后者主要包括:接口调用事件。事件通过“序列代码”链接在一起。数据模型设计也是基于这四个事件。详情见下图。

  

  3 埋点数据流向

  

  3.1 数据上传到 log采集service

  前端+后端——>Log采集服务

  前后端数据采用类json格式,行为事件实时异步发送到log采集服务进行分析。

  3.1.1 用户事件:user

  {<br />data:[{ <br />   userid:用户唯一标识ID<br />     ,equipment:{               //header中获取,包括浏览器、设备、网络等<br />        equipment_os:操作系统 <br />      , equipment_os_version:操作系统版本<br />      , equipment_brand:品牌  <br />      …<br />      }<br />      ,location:{ <br />       gps:{ <br />            gps_lon:经度       <br />           ,gps_lat:维度       <br />           ,gps_country:gps国家           <br />            ,gps_province:gps省       <br />           ,gps_city:gps市          <br />             ,gps_district:gps区     <br />             }    <br />             ,ip:{  <br />               … <br />               }<br />             }<br />           }]  <br />             ,time:时间   <br />             ,cookie:串联码   <br />             ,event_type:user   <br />             ,from:{    <br />             channel:渠道    <br />             ,product:产品      <br />               }<br />            }

  3.1.2 页面事件:页面

  {<br />data:[{   <br /> page_id:页面ID  <br /> ,page_name:页面名称  <br /> ,page_url:页面url  <br /> ,src_page_url:来源页url<br /> }]  <br />  ,time:时间   <br />  ,cookie:串联码   <br />  ,event_type:page   <br />  ,from:{   <br />     channel:渠道    <br />     ,product:产品      <br />     }<br />  }

  3.1.3 点击事件:点击

  {<br />data:[{   <br /> click_id:点击ID  <br /> ,click_name:点击名称  <br /> ,click_other_attr:{  <br /> remarks:备注  <br /> …<br /> }<br /> }]   <br /> ,time:时间   <br /> ,cookie:串联码   <br /> ,event_type:click   <br /> ,from:{    <br /> channel:渠道    <br /> ,product:产品        <br /> }<br /> }

  3.1.4 接口事件:接口

  {<br />data:[{   <br /> interface_id:接口ID  <br /> ,interface_name:接口名称  <br /> ,result:接口调用结果  <br /> ,result_remarks:接口调用说明  <br /> ,response_time:接口响应时长<br /> }]   <br /> ,start_time:接口调用开始时间   <br /> ,end_time:接口调用结束时间   <br /> ,cookie:串联码   <br /> ,event_type:interface   <br /> ,from:{   <br />    channel:渠道      <br />    ,product:产品     <br />    }<br /> }

  3.2实时数据仓库建模

  Log采集service——>实时数据仓库(kafka)

  3.2.1 基本字段处理

  一个。从log采集服务采集解析4个事件的json数据,获取4个事件的基本字段,实时写入kafka消息队列的4个topic中。

  B.通过Flink/StreamSQL,实时或微批量消费4个topic数据,存储在4个Hbase表中。

  3.2.2 用户事件链接到行为事件

  消费用户事件主题,根据串口代码cookie,将用户信息与行为信息关联起来,构建实时用户行为宽表。

  3.3 离线数据仓库建模

  3.3.1 发布源码层

  通过 ETL 提取 4 个事件 HBase 表。

  3.3.2 模型层

  根据源层4个事件的串口代码cookie,将用户信息与行为信息关联起来,构建一个宽表的离线用户行为。

  4 埋点数据应用

  4.1.1 用户行为查询

  根据实时用户宽度表,可将数据写入Elasticsearch或写入外部接口查询实时用户行为记录。

  根据线下用户宽表,写入数据到Elasticsearch,或者写入数据到外部接口,可以查询线下用户行为记录。

  4.1.2 用户行为统计

  根据4个事件的话题数据,结合用户行为指标体系,通过聚合统计分析方法,得到不同维度的用户行为指标。

  页面级别:

  数据日期

  频道名称

  操作系统

  日期类型:日、7 日、30 日、总计

  维度类型:页面/栏目/频道

  可视化字段:频道名称、链接、页面名称、PV、UV、访问量、平均停留时间、页面跳出次数、页面跳出率

  按钮级别:

  数据日期

  频道名称

  操作系统

  日期类型:日、7 日、30 日、总计

  可视化字段:渠道名称、操作系统、链接、页面名称、点击名称、点击次数、点击用户数

  4.1.3 用户留存分析

  尺寸:

  数据日期:2021-08-02

  频道名称:如“xxx”,无摘要

  用户类别:摘要、新用户

  留存类型:产品级、功能级(页面、点击)(可以下拉选择页面,也可以选择点击)

  数据类型:留存人数、留存率

  产品级别,选择保持器数量

  

  产品级别,选择留存率

  

  功能层面:比如美团APP会对使用“自行车”功能的用户进行留存分析。

  

  4.1.4 用户行为标签和客户群筛选

  构建用户行为标签以过滤目标客户群。

  根据客户的实时/线下业务状态,当满足一定的行为特征时,为业务人员筛选不同的目标客户群,通过营销平台以不同的方式触达。

  实时行为特征如:时间段内点击次数、停留时长、页面访问次数等

  场景如:根据不同页面和点击的行为特征,为新客户/老客户、有存款的客户、有提前取款记录的客户设置不同的营销策略。

  

  针对不同场景下产品品类和客户群较少的企业,实时推送给业务人员,与营销平台对接进行精准营销。

  当然,对于产品品类较多的企业,比如电商相关场景,构建基于用户行为的实时推荐系统是行业主流。

  4.1.5 基于用户行为的断点触摸

  结合实时和线下的用户行为和业务状态,可以将有行为断点的用户通过其他方式进行呼叫或触达。

  5 结论

  本文主要结合实际工作中的一些经验,做一个简单的概述。埋点采集主要是代码埋点。人工维护成本相对较高。后续可结合实际场景,采用业界较好的采集技术;用户行为分析需要逐步完善。欢迎大家批评指正。有兴趣的朋友可以联系我一起讨论。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线