直观:如何高效进行数据采集,这里有一套完整方案

优采云 发布时间: 2022-11-06 10:41

  直观:如何高效进行数据采集,这里有一套完整方案

  1、数据质量是数据分析的基石

  假设一个场景:我们想要采集一个广告服务页面数据。

  首先,我们和我们的技术同学描述了用户在进入应用的打开页面时所面临的场景:浏览-点击-跳转到广告页面;然后,我们提出了埋点的必要性。

  点击数据分为有效点击和无效点击两类,但是技术方面的同学不会纠结这个问题。他刚刚从网上下载了一个闪屏页面框架,并集成到项目中。

  在这个框架下,点击动作被拆解为:按下、抬起。而我们通常认为的点击动作应该是:在短时间内同时按下和抬起两个动作。

  由于该框架的目标是提高点击率,即让更多人看到广告详情页面。因此,当用户按下时,已经触发了跳转到详情页的操作。

  大多数非目标客户会不耐烦地退出广告详情页,而真正看到广告并感兴趣的客户会主动进入广告详情页。

  由此产生的见解是:点击率高,转化率低。市场方面的同学误认为是广告设计的失败,会影响下一个广告的视觉效果或投放策略。

  通过上面的例子,我们得出结论,data采集的时机和技术端的实现方式,会极大地影响业务端的决策。

  “九层平台,从土的堆积开始。” 在形成一组有洞察力的数据之前,data采集是最基本也是最关键的一步。只有有了准确的数据,这种洞察力才能帮助您做出业务决策。否则会适得其反,再漂亮的数据分析也不会带来实际效果。

  但是,在埋点方案的实际实现中,我们可能会遇到以下困惑:

  GrowingIO发现“数据采集引起的数据质量问题”可能已经成为企业普遍存在的问题,这个问题的主要原因如下4点:

  数据采集关系到数据质量,需要产品侧和业务侧的同事制定技术实施方案,让技术同学“快懂、快埋、快实施”。

  2、GrowingIO为数据效率保驾护航采集

  针对这些棘手问题,GrowingIO的非嵌入式技术可以快速定义页面、按钮、文本框等常见的用户行为操作,从而减少一些重复性高的用户常见行为中的嵌入式代码操作量,提供快速数据可视化。方便的。

  一、无埋点的定义

  什么是无墓地?我们先看看你有没有遇到过以下几种情况:

  针对以上问题,没有埋点可以很好的解决。事实上,人、时间、地点、内容、方法的数据采集方法没有埋点。通过GrowingIO的圈选(可视化定义工具)功能,我们可以在所见即所得上定义指标。

  无埋点(圈选)的核心思想基于以下5个元数据:

  没有埋点可以定义常见的事件类型,尽可能减少代码使用,减少开发工作量。通过GrowingIO的圈选功能,我们可以快速采集数据,定义指标,查看实时数据。

  2、如何选择埋点和不埋点?

  新的无埋点虽然简单方便,但也有其局限性。同时,我们又离不开业务数据维度,所以不能放弃传统的埋点。

  埋入式和不埋入式各有优势。面对不同的场景,需要明确目的,根据具体情况综合判断,选择最优的数据方式采集

  (1) 埋点

  缺点适用于“监控和分析”数据场景:

  (2) 无墓地

  缺点适用于“探索性”数据场景:

  基于以上,我们整理了下表,方便大家更好的理解和选择:

  

  总之,埋点技术灵活、稳定、限制低、准确率高,适用于跟踪关键节点、隐藏程序逻辑和业务维度观察到的数据。

  无埋技术判断速度快,有历史数据,有预定义维度支持,适用于快速查看某些趋势或过程数据。

  当我们选择无嵌入或嵌入时,我们只需要注意:该行为不是核心指标,存在于预定义的无嵌入指标中。

  如果有预定义的指标(即无埋点),并且预定义的尺寸也符合要求,那么我们需要观察无埋点的指标和尺寸,您可以放心选择无埋点。如果不存在或预定义的尺寸不能满足观察指标的视角,则需要通过埋点指标上报。

  三、全埋点方案设计的四要素

  在规划指标体系后,推动落实是价值落实过程中最重要的环节。

  许多客户在实施过程中仍然遇到瓶颈,即使他们非常清楚他们想要监控的数据系统。这很大程度上是由于团队协作问题,例如数据嵌入量大,沟通成本高,以及业务方和开发者无法统一目标。

  这最终将导致我们看到空的系统和无数的东西。

  如果一整套数据采集解决方案直接交给研发方,业务场景描述和逻辑理解的差异会造成很大的沟通成本,最终导致实施效率低下。

  因此,我们需要将有组织的指标体系梳理成实施需求。解决这个问题的关键在于以下4个步骤:

  1. 确认事件和变量

  如果一个问题从不同的角度定位,它的事件和变量也会发生变化。我们需要根据数据需求找到事件和变量组合的最优解。

  2.确定事件的触​​发时机

  时机选择没有对错之分,需要根据具体业务需求制定。同时,不同的触发时间会带来不同的数据口径。

  3.标准命名

  例如,客户在命名双十一时使用了拼音和英文的组合,这会使程序员感到困惑并出错。标准化的命名有助于程序员了解业务需求,高效实施方案。

  4. 明确实施重点

  通过明确优先级,我们可以专注于产品中真正需要跟踪的重要事件,避免技术冲突,实现价值的持续交付。

  基于以上四个要素完成埋点方案的设计,不仅可以提高需求方和开发团队的协作效率,还可以为后期数据提供质量保证。

  下表是我们整理出来的模板。本表格充分承担了埋点方案设计的四要素,可直接交由埋点技术方进行。

  4、团队合作是跟踪计划实施的关键

  接下来,如何快速准确地定义团队中埋点的需求,从而实现埋点计划的高效执行?

  1.完成协作流程

  

  从我们服务上千家企业的经验来看,GrowingIO 梳理出了一套完整的协作流程。包括业务需求方、数据规划师和开发团队。

  本次三方合作的具体流程和时间安排为:

  2.具体场景演示

  接下来,我们将以某款APP的注册场景为例,帮助大家了解埋点方案实施的具体流程。

  (在注册首页填写手机号-输入注册验证短信验证码-注册信息A、B、C-进入App首页)

  (1) 场景一

  业务方的需求是:快速分析现有注册流程各步骤之间的转化率,找到损失较大的环节进行优化。

  可以看出,业务方只关心流程之间的步骤转换过程,那么我们需要关注用户的浏览行为,指标可以定义为各个步骤之间的页面。

  具体来说,登录动作包括登录后从登录到首页的6个步骤,而我们关注的机型、地区、国家等角度不属于业务范畴,而是都在预定义的维度中,这符合我们缺乏埋点指标的定义规则。

  因此,我们可以快速定义6个浏览页面指标来完成数据分析。

  通过GrowingIO产品分析,我们可以得到下图,可以看到每一步的人数和转化。已经观察到注册验证-注册信息A-注册信息B这三个页面之间的流失率很高,我们这里需要优化一下。

  以上是无埋点的快速定义。我们可以实时观察数据并分析事件,而无需等待下一个版本。

  (2) 场景二

  客户的需求是:查看注册用户的实习行业分布和性别分布。

  根据完整埋点方案设计的四要素,我们要一一确认:

  根据提供的埋点计划文档,我们不需要反复沟通,程序员可以快速明确业务需求并进行埋点操作。

  3.数据验证

  数据采集完成后,需要进行最后的确认,也就是我们通常所说的数据校验。

  对此,GrowingIO有一套完整的数据验证工具,可以快速定位数据生成的过程。比如浏览了哪些页面,是否触发了事件,埋藏的事件是否对应定义的字段等。

  如果某个环节出现了瑕疵,我们可以及时反馈问题,解决问题。

  最后在这里和大家分享一句:“强则长,根深则久。” 数据驱动的“根”在于数据采集。只有采集的数据足够准确,才能做出正确的决策,促进企业的可持续发展。

  今天的分享到此结束。感谢您的宝贵时间。我希望它对你有帮助。

  作者:汪涵GrowingIO高级技术顾问,毕业于北京大学,Extron认证工程师。曾服务过奇瑞汽车、中国铁建、滴滴等龙头企业,拥有丰富的技术部署经验。

  整套解决方案:爬虫 全国建筑市场监管服务平台小程序 数据抓取与采集

  原帖数次文章关于全国建筑市场监管公共服务平台(四库一平台)平台网站数据采集并截图:

  施工资质爬虫——全国建筑市场监管公共服务平台(一)简介 施工资质爬虫——全国建筑市场监管公共服务平台(二)——界面 新版建筑市场(四库一平台)抓取最新资讯(爬虫)

  近日,发现建筑市场监管平台推出了自己的小程序“全国建筑市场监管服务平台”。

  ​在使用过程中,发现没有前端辅助验证码,现在也有一些访问权限,于是研究了如何通过小程序抓取数据。经过学习研究,基本完成了采集和数据的抓取。,并记录整个过程。如需相关技术支持和爬虫数据,可以联系我(电话:【微信同号】)。

  1.使用爬虫抓包抓取小程序访问链接

  我喜欢使用 Fiddler 包捕获工具。我不会在这里详细介绍如何配置和安装它。网上有很多教程。安装配置完成后,我们访问小程序,在Fiddler上查看相关访问链接:

  然后通过分析小程序的界面,有两个

  所有相关服务都是通过更改参数键来实现的。这里没有很多。通过界面可以轻松分析相关功能。

  

  2.接口认证token和IP限制

  首先我们打开一个接口的请求头:

  GET https://sky.mohurd.gov.cn/skyapi/api/statis/getResult?_t=0.33565467680946304&keys=corp%2Fdata_search%2Fpage&qyTypeCode=&regionNum=&pageNumber=1&pageSize=15&keyWord= HTTP/1.1

Host: sky.mohurd.gov.cn

Connection: keep-alive

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36 MicroMessenger/7.0.9.501 NetType/WIFI MiniProgramEnv/Windows WindowsWechat

cityCode: 

content-type: application/json

token: t_b161960b732146379d4b8fc53196c50f

Referer: https://servicewechat.com/wx8f070e7958a940d1/11/page-frame.html

Accept-Encoding: gzip, deflate, br

  ​虽然现在小程序接口不多,但我们还是做了一点认证和爬虫。现在,第一个是令牌。这里的token比较简单,可以直接使用捕获到的token作为token。当有一定的访问权限时,后端也会屏蔽该IP。一开始还好几分钟就可以解封了,现在不行,试试用IP代理吧。

  

  ​​​

  3.数据AES加解密

  当我们查看返回的数据时,数据如下所示:

  {"data":"A3ReBKoR6IDZSR4Jdxq72fXPsnWTZMhOr5sXl/lJ8/3GWFmsy2fTHG/0+Uz8fZmopZ0Ru0cskOWNX8hWlUy19scqauL28x3daP9IQn2……",

"message":null,

"status":1}

  这里data的数据是加密的,我们使用的是我们解密的数据:

  [{"data":{"asc":true,"current":1,"limit":15,"offset":0,"offsetCurrent":0,"openSort":true,"optimizeCount":false,"pages":14,

"records":[{"legalMan":"张东","address":"重庆市渝北区龙溪街道金山路18号中渝.都会首站4幢9-10","regionFullname":"重庆市",

"corpName":"重庆惠风机电设备*敏*感*词*","id":"001903140034193455","corpCode":"91500112054824582M"}],

"searchCount":true,"size":15,"total":200}}]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线