如何高效进行数据采集,这里有一套完整方案
优采云 发布时间: 2020-08-25 10:00如何高效进行数据采集,这里有一套完整方案
GrowingIO中级技术顾问,毕业于北京大学,Extron 认证工程师。服务过奇瑞汽车、中铁建工、滴滴等脑部企业,有丰富的技术布署经验。
一.数据质量是数据剖析的基石
假设一个场景:我们想要采集一个广告投放页的数据。
首先,我们与技术朋友描述用户步入 App 开屏页所面临的场景:浏览—点击—跳转到广告页;接着,我们提出埋点需求。
点击数据分为有效点击和无效点击两类,但是因为技术侧朋友并不会苦恼此问题。他便随意从网上下载了一个闪屏页框架,集成到项目中。
在该框架下,点击动作被拆解为:按下,抬起。而我们平常觉得的点击动作应当是:短时间内按下和举起两个动作同时出发。
由于框架的目标是降低点击率,即使听到广告详情页的人变多。所以,当用户按下的时侯,就早已触发了跳转到详情页的操作。
大部分非目标顾客就会太暴躁的退出广告详情页,而真正看见广告并感兴趣的人员则会主动步入广告详情页。
由此带来的洞察结果是:点击率高,转化疗效差。市场侧的朋友误觉得是广告设计的失败,这会影响上次广告投放的视觉疗效或投放策略。
通过上述事例,我们得出结论:数据采集的时机和技术侧的实现方法会大大影响业务侧的决策。
“九层之台,起于累土。”在产生一套可被洞察的数据之前,数据采集是最基础也是最关键的步骤。只有数据采得准,这个洞察结果能够在你做商业决策时提供帮助。否则将适得其反,再漂亮的数据剖析也带不来实际的疗效。
但是在埋点方案的实际施行过程中,我们可能会遇见以下困扰:
如何和技术端沟通你的埋点需求?
技术朋友是否很快理解并落地?
最终数据生产结果是否符合你的预期?
GrowingIO 在与上百家顾客落地埋点方案的经验中,发现“数据采集带来的数据质量问题”也许早已成为了企业的共性问题,而造成这一问题发生的诱因主要有以下 4 点:
前期沟通业务不明晰。例如程序员不清楚有效点击和无效点击的区别,只是单纯地从技术层面完成埋点;
采集时机口径对不齐。你希望采集数据的那种时机,技术朋友并不明晰;
采集点没有统一管理。如果没有统一的渠道去管理点击、浏览等数据,你的埋点方案将因冗长的程序而难以落地;
版本更新。比如你在新旧版本之间进行比对时,无法发觉数据的变化。
数据采集关乎数据质量,它须要产品及业务侧同学做出让技术朋友“看得懂、埋的对、实施快”的技术落地方案。
二.GrowingIO 为数据高效采集保驾护航
针对那些棘手问题,GrowingIO 的无埋点技术可以快捷定义页面、按钮、文本框等常见用户行为操作,从而降低在个别重复性高的用户共性行为的埋点代码操作量,为数据快速提供便利。
1.无埋点的定义
什么是无埋点?我们先来瞧瞧你是否碰到过以下这种场景:
做了一场营运活动,需要在用户的每一次点击行为上都埋点,却缺少产研资源;
想评判交互细节以推断用户行为之间的关联,却困惑于冗长的工序;
想查看用户在访问时的一切行为轨迹,探索用户使用产品场景;
想要快速地对比新旧版本,衡量发版疗效;
想要剖析的风波,没有事先埋点;
新功能上线时,发现有一个重要的元素没有埋点。
针对以上问题,无埋点都可以挺好的解决。其实无埋点就是人物、时间、地点、内容、方式的数据采集方式,通过 GrowingIO 的圈选(可视化定义工具)功能,我们可以所见即所得地定义指标。
无埋点(圈选)的核心思想基于以下 5 个元数据:
人物:人的属性,包括 ID、性别、所在区域等;
时间:触发行为的时间;
地点:行为发生的城市、地区浏览器等;
内容:行为的对象,如按键等;
行为:行为的操作方法,如浏览、点击、输入等。
无埋点才能定义常见风波类型,尽可能地降低代码的使用,减少开发工作量。通过 GrowingIO 的圈选功能,我们能快速采集数据、定义指标、查看实时数据。
2.埋点和无埋点怎么选择?
新的无埋点其实简单方便,但也有它自身的局限性。同时,我们离不开业务数据维度,所以传统埋点也不能舍弃。
埋点和无埋点各有优势,面对不同的场景,我们须要明晰目的、结合具体情况综合判定,选择数据采集的最优形式。
(1)埋点
优势
数据定义清晰,稳定性高,用户一旦触发风波,数据能够上报;
可以多次添加业务属性,以支持维度拆解和下钻剖析。
劣势
需要提早规划,和开发团队沟通业务需求,跨团队协作确定埋点方案;
历史数据难以回溯,在下一个版本中能够看见。
适用于「监控与分析式」数据场景:
核心 KPI 数据
需要常年监控和储存
业务属性丰富
(2)无埋点
优势
自主性高,可实时查看数据,便于灵活采集;
无需等到发版便可回溯过去 7 天数据。
劣势
受制于产品开发框架和开发规范,任何一个路径发生改变就会形成影响;
维度预定义,无法分拆事件级维度,且难以采集滑动等行为。
适用于「探索式」数据场景:
交互属性强
突发问题快速及时剖析
作为补充数据互相印证
综合以上,我们整理出了以下表格,方便你们更好的理解和选择:
总之,埋点技术灵活、稳定、局限性低、精度高,适合跟踪关键节点,隐藏程序逻辑搭配业务维度观察的数据。
无埋点技术确定快,有历史数据,有预定义维度加持,适合快速查看个别趋势型或流程型数据。
当我们选择无埋点还是埋点时,只须要关注:该行为非核心指标且存在预定义无埋点指标中。
如果存在该预定义指标(即无埋点),且预定义维度也满足需求,那么,我们就要针对该无埋点的指标和维度进行观察,可放心选择无埋点。如果不存在或预定义维度难以满足观察该指标的角度,则须要通过埋点指标进行上报。
三.完整埋点方案设计的四要素
在规划完指标体系后,推进施行是价值落地过程中最重要的一环。
很多顾客虽然对要监控的数据体系相当明晰,也依然会在施行时遇见困局。这很大程度上归结于团队协作问题,例如数据埋点工程量大、沟通成本高、业务方与开发方未能统一目标等。
这最终会导致我们空有体系,无数可看。
如果将一整套的数据采集方案直接给到研制侧,业务场景描述和逻辑理解的差别会导致大量的沟通成本,最终造成惨淡的施行效率。
所以,我们须要将条理化的指标体系梳理成施行需求。而解决该问题的关键点在于以下 4 个步骤:
1.确认风波与变量
事件:这是我们最终要剖析的数据来源.,是一个结果性指标,比如支付成功;
变量:事件的维度或属性,比如用户性别、商品的种类;
如果从不同的角度去定位一个问题,它的风波和变量也会发生改变。我们要基于数据需求,找到风波与变量搭配的最优解。
2.明确风波的触发时机
需要思索:什么时间才是记录风波的合理时机。例如“分享成功” 事件面临 2 个时机:用户点击“微信”发生分享动作;用户分享后跳转到相应页面。不同的时机会带来不同的“分享成功率”。
所有数据使用者须要明晰这一时机。
时机的选择没有对错,需要依据具体的业务需求来制订。同时,不同的触发时机会带来不同的数据口径。
3.规范命名
举个反例:某顾客给双十二活动命名时采用拼音与英语结合的方法,这会促使程序员形成混淆,错误埋点。而规范的命名有利于程序员理解业务需求,高效落地埋点方案。
动词+名词 or 名词+动词:如加入购物车、商品点击。
使用驼峰法,即首字母大写,随后每一个关键词组的首字母小写:如 addToCart。
确保风波命名规范一致。
4.明确施行优先级
业务部门必须基于业务指标,明确施行埋点的优先级。因为对于大量风波,开发部门不可能一次性完成所有埋点。以电商为例,购买流程的关键风波应该优先施行,与此冲突的都需往前排列;
考虑技术实现成本,比如有的埋点须要跨越多个插口,应该优先落实才能最快落地的,以确保技术准确性;
如果技术实现成本相同,就优先施行业务数据价值更高的。
通过明晰优先级,我们可以专注于产品中须要跟踪的真正重要风波,避免技术埋点冲突,实现价值的持续交付。
基于上述四要素来完成埋点方案设计,不仅可以提高需求方与开发团队的协作效率,更能为后期的数据提供质量保障。
以下表格是我们整理出的模板,该表格完整承接埋点方案设计的四要素,可直接交给技术方进行埋点。
扫码发放《本期公开课 PPT + 埋点方案文档格式样例》
四.团队协作是埋点方案落地的关键
接下来,我们怎么在团队中又快、又准明晰埋点需求,实现埋点方案的高效落地呢?
快:需求方希望方案快速落地,快速形成数据,以促进决策;这须要需求方、数据规划师、开发团队三方有序协作。
准:需要确保数据的数据质量和业务含意,保证数据采集的准确度和决策的正确性。
1.完整的埋点协作流程
我们 GrowingIO 在服务过上千家企业的经验中,梳理出了一套完整的埋点协作流程。收录了业务需求方、数据规划师及开发团队。
这三方协作的具体流程和时间轴是:
需求形成,需求方对业务指标进行拆解和设计,与数据规划师沟通,确认合理的采集点,形成埋点方案;
三方阐述技术实现成本,确认埋点方案;
开发团队和数据规划师执行方案,沟通埋点落实情况,呈现数据;
数据规划师进行数据校准,检查埋点时机和指标是否正确,过程是否完整;
程序发版上线,实现数据监控和剖析。
2.具体场景演示
接下来将以某 App 的注册场景为例,帮助你们理解埋点方案落地的具体流程。
(注册首页填写手机号——注册验证输入短信验证码—注册信息 A、B、C——进入 App 首页)
(1)场景 1
业务方的需求是:快速剖析现有注册流各个步骤间的转化率,从而找到流失较大的环节进行优化。
可见,业务方单纯关心该流程间步骤的转化流程,那么我们就要关注用户的浏览行为动作,可以把指标定义为各个步骤间的页面。
具体来讲,登录动作从登陆首页到步入登陆后的首页共 6 步,而且我们的关注角度如型号、地区、国家等不属于业务范畴,都在预定义维度中,这就太符合我们无埋点指标的定义规则。
所以,我们可以快速定义出 6 个浏览页面指标,即可完成对于数据的剖析。
通过 GrowingIO 产品剖析,我们可以得到以下图表,看到各个步骤的人数和转化情况。据观察,注册验证——注册信息 A——注册信息 B 这 3 个页面间的流失率高,我们须要在此进行优化。