文章采集api(数据埋点采集到底包括哪些问题?作者从什么是埋点、埋点的应用)
优采云 发布时间: 2021-12-30 23:22文章采集api(数据埋点采集到底包括哪些问题?作者从什么是埋点、埋点的应用)
数据采集是数据分析的基础,埋点是采集最重要的方法。那么数据埋点采集涉及哪些问题呢?本文作者从什么是埋点、埋点如何设计、埋点的应用三个方面梳理了这个问题,与大家分享。
一、数据采集及常见数据问题1.数据采集
数据采集的方式有很多种,埋点采集是其中非常重要的一部分。是c端和b端产品采集的主要方式。
数据采集,顾名思义,采集对应的数据是整个数据流的起点。采集的不完整性,对与错,直接决定了数据的广度和质量,并影响到后续的所有环节。在数据采集有效性和完整性较差的公司中,业务中发现的数据通常会发生重大变化。
数据处理通常包括以下5个步骤:
2. 常见数据问题
在大致了解了数据采集及其结构之后,我们来看看我们工作中遇到的问题,有多少是与数据采集链接相关的:
数据与后台差距大,数据不准确——统计口径不同,埋点定义不同,采集的方法带来误差;想用的时候,没有我想要的数据——没有数据。采集需求,埋点不正确,不完整;事件太多,意义不明——埋点设计方法,埋点更新迭代规则和维护;数据分析不知道看哪些数据和指标——数据定义不清,缺乏分析思路。
我们要从根本上解决问题:把采集当作一个独立的研发企业,而不是产品开发的附属品
二、什么是埋点1. 什么是埋点
所谓埋点,是数据领域的一个术语采集。它的学名应该叫Event Tracking,对应的英文是Event Tracking,指的是捕获、处理和发送特定用户行为或事件的相关技术和实现过程。
数据埋点是数据分析师、数据产品经理和数据运营。根据业务需求或产品需求,开发用户行为的每个事件的对应位置,开发埋点,通过SDK上报埋点的数据结果,并记录汇总数据。分析、推动产品优化、指导运营。
该过程附有规范。通过定义,我们看到特定的用户行为和事件是我们的采集关注点。我们还需要处理和发送相关的技术和实施流程;数据嵌入点是为产品服务的,它来自于产品。,所以跟产品息息相关,埋点在于具体的实战过程,这关系到每个人对底层数据的理解。
2. 为什么要埋分
埋点的目的是对产品进行全方位的持续跟踪,通过数据分析不断引导和优化产品。数据埋点的好坏直接影响到数据质量、产品质量、运营质量等。
数据驱动的埋点将分析深度下钻到流量分布和流量级别。通过统计分析,对宏观指标进行深入分析,发现指标背后的问题,洞察用户行为与价值提升的潜在关系;产品优化——对于产品,用户在产品中做了什么,在产品中停留了多久,有什么异常需要注意。这些问题都可以通过埋点的方式来解决;精细化运营——埋点可以实现整个产品生命周期、流量质量和不同来源的分布、人群的行为特征和关系,洞察用户行为与提升商业价值之间的潜在关联。3.
埋点的方法有哪些?目前,大多数公司使用客户端和服务器的组合:
准确度:编码埋点>可视化埋点>全埋点
三、埋点框架及设计1.埋点顶层设计采集
所谓顶层设计,就是搞清楚怎么埋点,用什么方法,上传机制是什么,怎么定义,怎么实现等等;我们在设计的基础上遵循唯一性、可扩展性、一致性等一些常见的字段和生成机制,例如:cid、idfa、idfv等。
2. 埋点 采集 事件和属性设计
在设计属性和事件时,我们需要知道哪些是经常变化的,哪些是不变的,哪些是业务行为,哪些是基本属性。
基于基础属性事件,我们认为属性一定是采集项,但是属性中的事件属性根据业务进行了调整。因此,我们可以将埋点采集分为协议层和业务层埋点。
3. 数据采集事件和属性设计
Ev 事件的命名也遵循一些规则。当同一类型的函数出现在不同的页面或位置时,根据函数名进行命名,在ev参数中区分页面和位置。仅点击按钮时,按按钮名称命名。
ev事件格式:ev分为ev标识和ev参数
规则:
ev标志和ev参数之间用“#”连接(一级连接器);
ev参数和ev参数之间用“/”连接(二级连接器);
ev 参数使用key=value 的结构。当一个key对应多个value值时,value1和value2之间用“,”连接(三级连接器);
当埋点只有ev标志,没有ev参数时,不需要带#;
评论:
ev标识:作为埋点的唯一标识,用于区分埋点的位置和属性,不可变,不可修改;
ev参数:需要返回埋点的参数,ev参数的顺序是可变的,可以修改;)
调整app埋点时ev标志不变,只修改后续埋点参数(参数值改变或参数类型增加)
eg:一般嵌入点文档中收录的sheet的名称和功能:
A.暴露埋点汇总;
B.点击浏览埋点汇总;
C.故障埋点总结:一般会记录埋点的故障版本或时间;
D、PC和M页面嵌入点对应的pageid;
E、各版本上线时间记录;
在嵌入点文档中,所有列名和函数包括:
4. 基于埋点的统计
如何使用埋点统计查找埋点 ev 事件:
明确埋点类型(点击/曝光/浏览)-过滤类型字段,清除埋点所属页面(页面或功能)-过滤功能模块字段,指定埋点事件名称-过滤name字段知道ev标志,可以直接用ev过滤
如何根据ev事件进行计数统计:查询按钮点击统计时,可以直接使用ev标志进行查询,有区别时,可以限制埋点参数的取值;因为ev参数的顺序不需要可变,查询统计的时候,不能限制参数的顺序;
四、应用-数据流的基础
1. 指标系统
系统化的指标可以将不同指标、不同维度串联起来进行综合分析,快速发现当前产品和业务流程中存在的问题。
2. 可视化
人类对图像信息的解释比文本更有效。可视化对于数据分析极其重要。使用数据可视化可以揭示数据中错综复杂的关系。
3. 埋点元信息api提供
数据采集服务会将采集的埋点写入Kafka。针对每个业务的实时数据消费需求,我们为每个业务提供了单独的Kafka,流量分发模块会定时读取它 取埋点管理平台提供的元信息,实时分发流量各业务时间卡夫卡。
数据采集就像设计一个产品。不能过火,留有扩展空间,但要时刻考虑数据是否完整、详细、不稳定、快速与否。