网站自动采集发布系统(基于此强需求开发小象用户行为分析,兼容神策开源的埋点SDK)
优采云 发布时间: 2022-01-03 20:19网站自动采集发布系统(基于此强需求开发小象用户行为分析,兼容神策开源的埋点SDK)
项目介绍:
大数据技术已迅速应用于业务并产生价值。通过数据分析识别用户行为,建立以用户为中心的低成本快速增长,是企业必须具备的核心竞争力。随着成本的大幅增加,企业必须改变过去粗放的营销和运营方式,特别是营销、产品制造、销售和未来的客户服务,向更科学、更高效的方向发展。
电子商务系统上线后,需要采集用户行为数据,通过大数据的实时分析,实现电子商务业务的数字化运营。基于这种强烈的需求,开发了大象的用户行为分析,并使用兼容神策的开源SDK完成终端行为上报。使用Nginx+Flume+kafka实现日志采集,使用Flink写入HDFS。
这个开源项目的内容包括nginx环境配置、Flume解密和日志格式处理、Kafka Topic下存储明文数据、Flink消费后将嵌入点数据存储在HDFS中的四个关键步骤。为了方便预埋点的验证和优化,在Kafka链接中,在MySQL中加入了埋点解析数据的JSON格式。未来计划增加友盟等SDK厂商对埋点的处理,以及采集业务系统日志的存储。
工程流程
完成数据采集技术建设和业务设计,与App、小程序系统供应商合作完成用户行为数据采集,基于埋藏数据构建用户在线行为标签和画像。
项目主要内容
建筑设计理念
所谓“埋点”是数据领域采集(尤其是用户行为数据领域采集)中的一个术语,指的是对特定数据的捕获、处理和发送。用户行为或事件。技术及其实施过程。例如,用户点击某个图标的次数,观看某个视频的时长等。
商业设计理念
在埋点业务的设计中,首先要根据业务分析明确采集的目标行为,进一步弄清楚应该埋在什么地方,埋点什么。在这个过程中,建议使用“事件模型(Event model)”来描述用户的各种行为。事件模型包括两个核心实体,事件(Event)和用户(User)。基于4W1H模型描述用户行为可以清楚地描述整个行为。要点包括:谁、何时、何地、如何以及他们做了什么。这两个实体的结合可以清楚地描述用户行为。
技术架构
SDK埋点采集行为数据源终端包括iOS、Android、Web、H5、微信小程序等,不同终端SDK采用对应平台和主流语言的SDK,接收到的数据由嵌入点采集通过JSON数据通过HTTP POST提交给服务器API。服务器端API由数据访问系统组成,Nginx用于接收通过API发送的数据并写入日志文件。使用 Nginx 实现高可靠性和高扩展性。对于 Nginx 打印到文件的日志,Flume 的 Source 模块实时读取 Nginx 日志,Channel 模块进行数据处理,最后通过 Sink 模块将处理结果发布到 Kafka。
完整的软件架构
第三方嵌入式点SDK集成步骤的API接入服务设计
不同通道的嵌入点数据通过HTTP API发送到服务器API进行数据访问。使用Nginx作为WEB容器,接收客户端SDK发送的数据并写入日志文件。使用 Nginx 主要是因为它的高并发、高可靠性和高扩展性。
用户行为采集场景
通过梳理应用场景,可以用场景规划埋点,用场景检查埋点。场景梳理可以抽象为三个层次:
应用效果
想要源码记得关注+转发+私信,私信回复【数据分析平台】