关于数据采集的那些事情
优采云 发布时间: 2020-08-07 00:05数据采集是数据分析的基础,掩埋点是最重要的采集方法. 那么数据掩埋点集合到底是什么?我们主要从三个方面来研究它: 埋葬点是什么,如何设计埋葬点,以及埋葬点的应用.
首先,数据采集和常见数据问题
1. 数据采集
一切都必须有目的和目标,数据分析也不例外. 在进行数据分析之前,我们需要考虑为什么我们需要进行数据分析?您希望通过此数据分析为公司解决哪些问题?
有很多采集数据的方法,并且隐埋点采集是其中非常重要的一部分. 它是c-end和b-end产品的主要采集方法. 顾名思义,数据采集就是采集相应的数据,即整个数据流. 起点是不正确的采集(对还是错),直接决定数据的广度和质量,并影响所有后续链接. 在数据采集有效性和完整性较差的公司中,业务中发现的数据通常会发生重大变化.
数据处理通常包括以下5个步骤:
2. 常见数据问题
大致了解了数据采集及其体系结构之后,让我们看一下我们在工作中遇到的问题,其中有多少与数据采集链接有关:
(1)数据与背景之间存在较大差距,数据不准确-统计口径不同,掩埋点的定义不同,采集方法带来误差;
(2)当我要使用它时,没有我想要的数据-没有提及数据采集要求,并且掩埋点不正确且不完整;
(3)事件太多,含义不明确-埋点设计方法,埋点更新迭代的规则和维护;
(4)我不知道在分析数据时要看哪些数据和指标-数据的定义不清楚并且缺乏分析思路
我们需要从根本上解决问题: 将馆藏视为独立的研发业务,而不是产品开发的附件.
第二,什么是掩埋点
1. 什么是埋藏点
所谓的掩埋点是数据采集领域中的一个术语. 它的学名叫“事件跟踪”,对应的英文是“事件跟踪”,它是指捕获,处理和发送特定用户行为或事件的相关技术和实现过程.
数据埋藏点是数据分析师,数据产品经理和数据操作. 根据业务需求或产品需求,开发每个用户行为事件的对应位置并掩埋点,并通过SDK报告掩埋点的数据结果,并对记录进行汇总. 分析数据后,它可以促进产品优化并指导操作.
该过程随附规范. 通过该定义,我们看到特定的用户行为和事件是我们采集的重点,并且我们还需要处理和发送相关的技术和实现过程;数据掩埋点是为产品服务的,它来自产品. 因此,它与产品密切相关,而埋藏点在于具体的实战过程,这与每个人对基础数据的理解有关.
2. 为什么要埋点?
掩埋点的目的是对产品进行全方位的连续跟踪,并通过数据分析不断地指导和优化产品. 数据掩埋点的质量直接影响数据,产品,操作等的质量.
(1)数据驱动的埋藏点深入分析了交通分布和流量水平的深度,通过统计分析对宏观指标进行了深入分析,发现了指标背后的问题,并深入了解了用户行为与增值之间的关系潜在相关.
(2)产品优化-对于产品,用户在产品中的工作方式,在产品中停留的时间以及任何异常情况都需要引起注意. 这些问题可以通过掩埋点来实现.
(3)精致的运营掩埋点可以实现整个产品生命周期,流量质量和不同来源的分布,人群的行为特征和关系以及用户行为与提升业务价值之间的潜在关联
3. 如何掩埋点
掩埋点有哪些方法?目前,大多数公司使用客户端和服务器的组合.
精度: 代码掩埋点>可视化掩埋点>完全掩埋点
三,掩埋点的框架和设计
1. 掩埋点集合的顶层设计
所谓的顶层设计是弄清楚如何掩埋点,使用哪种方法,上载机制是什么,如何定义它,如何实现它,等等. 我们遵循唯一性,可伸缩性,一致性等原则. 我们必须设计一些常见的字段和生成机制,例如: cid,idfa,idfv等.
用户识别: 用户识别机制的混乱将导致两个结果: 一个是不正确的数据,例如UV数据不正确;另一个是不正确的数据. 另一个是渠道分析链接中的异常. 因此,应为: 严格规范ID自身的识别机制; b. 跨平台用户识别.
相似的抽象: 相似的抽象包括事件抽象和属性抽象. 事件抽象是指浏览事件和点击事件的集合;属性抽象意味着将大多数可重复使用的场景合并以增加源差异.
一致集合: 一致集合包括两点: 一是跨平台页面的一致命名,其二是按钮的一致命名. 设置嵌入点本身的过程就是对基础数据进行标准化的过程,因此一致性特别重要. 只有这样,才可以使用它.
频道配置: 频道主要指促销频道,登录页面,Web促销页面,APP促销页面等. 此登录页面的配置必须具有统一的规范和标准
2. 埋点采集事件和属性设计
在设计属性和事件时,我们需要知道哪些经常更改,哪些不更改,哪些是业务行为以及哪些是基本属性. 基于基本属性事件,我们认为必须采集属性,但是属性中的事件属性会根据不同业务进行调整. 因此,我们可以将掩埋点集合分为协议层和业务层掩埋点.
业务分解: 整理并确认业务流程,操作路径和不同的细分方案,并定义用户行为路径. 分析指标: 定义特定事件,需要数据的核心业务指标进行事件设计: APP启动,退出,页面浏览,事件暴露单击属性设计: 用户属性,事件属性,对象属性,环境属性
3. 数据采集事件和属性设计
Ev事件的命名也遵循一些规则. 当同一类型的函数出现在不同的页面或位置时,将根据函数名称进行命名,并在ev参数中区分页面和位置. 当仅单击按钮时,它以按钮名称命名.
ev事件格式: ev分为ev标识和ev参数
规则:
使用“#”在ev标记和ev参数(一级连接器)之间进行连接
使用“ /”在ev参数和ev参数(二级连接器)之间进行连接
ev参数使用key = value的结构. 当一个键对应多个值时,请使用“,”在value1和value2(三级连接器)之间进行连接
当埋点只有ev标记而没有ev参数时,则无需带#
备注:
ev ID: 作为掩埋点的唯一ID,用于区分掩埋点的位置和属性. 它是不可变的,不能修改.
ev参数: 埋点需要返回的参数,ev参数的顺序是可变的,可以修改)
调整应用嵌入点后,ev标记保持不变,并且仅修改后续嵌入点参数(参数值更改或参数类型增加)
常规嵌入点文档中收录的图纸的名称和功能:
A. 暴露掩埋点摘要;
B. 点击和浏览隐藏点的摘要;
C. 失效埋点汇总: 通常会记录失效点的失效版本或时间;
与D,PC和M页面的嵌入点相对应的pageid;
E. 在线每个版本的时间记录;
在埋点文档中,所有列名称和函数都包括:
4. 基于埋点的统计
如何使用隐藏的统计数据查找隐藏的ev事件:
(1)指定掩埋点的类型(单击/曝光/浏览)-过滤类型字段
(2)指定按钮所属的页面(页面或功能)-过滤功能模块字段
(3)指定掩埋点事件的名称-过滤名称字段
(4)知道ev标识符,您可以直接使用ev进行过滤
如何根据ev事件查询统计信息: 当查询按钮单击统计信息时,您可以直接使用ev徽标进行查询,并且当存在区别时,可以限制掩埋点参数的值. 由于ev参数的顺序不需要是可变的,因此在查询统计信息时,不能根据参数的顺序对其进行限制.
四个应用程序-数据流的基础
1. 指标体系
系统化指标可以整合不同指标和不同维度进行全面分析,从而迅速发现当前产品和业务流程中存在的问题.
2. 可视化
人类对图像信息的解释比文本更有效. 可视化对于数据分析极为重要. 使用数据可视化可以揭示数据中的复杂关系.
3. 提供了埋点元信息api
数据采集服务会将采集的掩埋点写入Kafka. 为了满足每个企业的实时数据消耗需求,我们为每个企业提供了单独的Kafka,流量分配模块将定期读取掩埋点管理平台. 所提供的元信息会在Kafka中为每个业务实时分配流量.
数据采集就像设计产品一样,不能过多. 我们不仅要留出扩展的空间,还应该考虑数据是否完整,不完整,详细,稳定和快速.