深入揭示用户数据埋藏点采集技术|您的行踪已经暴露

优采云 发布时间: 2020-08-05 18:07

  据说视觉掩埋点可以解放程序员. 当然,这只是理想状态,否则程序员将失业. 对于需要针对接口嵌入进行调整的与业务属性相关的数据(例如订单号,数量,产品数据等),不支持可视嵌入. 另外,由于两端的代码结构不同,可能无法以视觉方式获得所有元素,这也是视觉嵌入的局限性.

  简而言之,掩埋点的可视化只是一个辅助功能,重点是可视化. 它可以满足部分需求并释放部分生产力. 但是,更复杂的掩埋点仍需要编码才能完成.

  三,当前的主流数据报告技术

  以前,我解释了客户端的点埋技术,然后介绍主流报告技术.

  3.1客户主动举报

  无论是APP还是浏览器,我们都可以统称为客户端. 在大多数情况下,客户端通过HTTP请求将数据报告给服务器. APP或桌面软件使用相应的编程语言发送请求,而网页通常使用Java脚本语言发送请求.

  当用户只是进入界面时,或者在用户离开界面之前,或者当用户执行某些操作,或者在用户不知情的情况下间歇地报告时,都可能发生此过程.

  

  @姬小光的照片

  报告的具体时间各有利弊. 我们需要平衡实时统计信息,服务器压力和数据准确性. 例如,如果您保存了一部分数据然后进行报告,尽管可以提高效率并减少服务器压力,但数据丢失的风险会增加.

  这里可以解释为什么有时数据不准确的原因,因为客户端报告要通过​​网络发送请求,并且请求过程可能会丢失数据,这称为数据包丢失. 再举一个例子,在极端情况下,客户端只想向服务器发送数据,但是网络突然断开. 这时,如果在连接网络时没有重试机制,或者不再连接网络,则这部分数据不能计算在内.

  如果Web端的Java脚本报告了此错误,则页面上可能存在其他业务逻辑错误,导致该脚本不再执行,或者在关闭页面之前未执行onbeforeunload事件. 简而言之,只要误差在可接受的范围内,就可以接受一定程度的报告误差.

  3.2服务器获取信息

  在网页上,用户第一次看到的所有内容都是从服务器返回的(APP是不同的,因为部分接口和逻辑已安装在用户设备上,并且该部分接口的显示不需要网络请求). 然后,服务器在响应客户请求时也可以获得一些基本信息,例如您的浏览器类型,版本号,屏幕分辨率,IP地址等.

  这些也可以用作基本分析数据. 例如,哪些设备与企业中的网页兼容,您可以首先参考这些统计信息,以查看是否要放弃与占很小比例的浏览器或设备的兼容性.

  其中一些数据可以通过页面上的脚本语言获取,然后“异步”报告给服务器. 所谓的“异步”是指在您访问网页时不执行,而是具有延迟的异步执行逻辑. 除了服务器可以获得的基本信息之外,还必须通过上述嵌入技术获得其他信息,并将其发送到服务器以进行异步记录.

  四个. 基本识别和分析方法4.1设备的独特性

  如前所述,可以获取设备的基本信息,但也可以伪造. 那么什么才是真正的设备?

  具体算法,基本上都是基于设备的MAC地址和其他辅助信息生成的,其细节不再赘述.

  4.2用户唯一性

  类似地,如果用户未添加足够的验证条件,则很容易伪造. 因此,必须对用户做出独特的判断.

  我们还可以为用户分配一个唯一的ID,可以称为uid,uuid,unionId等. 那么,这种唯一性当然是理想状态. 根据特定的实现,我们可以在应用程序内唯一,在业务内唯一,在整个业务内唯一,在整个网络内唯一,等等.

  网站统计信息中经常提到的UV(唯一身份访问者)是指该唯一身份用户的访问次数. PV(页面浏览量)访问是用户每次打开特定页面的次数.

  4.3用户行为分析

  用户行为分析的概念非常大. 这里有一些概念和原则,可帮助所有人了解如何实现基本的用户行为分析.

  4.3.1鼠标轨迹

  鼠标事件的记录原理已在前面介绍,因此鼠标轨迹的记录也非常简单. 只要检测到鼠标移动,就会记录当前位置,然后将其发送到服务器.

  鼠标轨迹的含义是查看用户的纠缠和犹豫,在思考过程中手的潜意识运动以及单击的真实运动和放弃. 在一定程度上根据鼠标的位置,间隔和停留时间猜测出来.

  我们都知道用户的浏览顺序具有统计规律,因此一般网页的核心信息结构被设计为F形. 但是,用户端没有眼动仪,除非您入侵用户的相机,否则无法跟踪用户的浏览过程. 此时,鼠标轨迹的含义是帮助分析用户的思维过程,属于用户研究类别.

  鼠标轨迹与停留时间的结合成为一种抽象艺术作品,对艺术创作也有好处:

  

  图片来自互联网

  4.3.2关键路径

  有时候,我们不仅想知道用户在特定页面上的操作方式,而且想知道用户在整个网站或应用程序上的操作方式,他们从哪个界面跳转到哪个界面,以及他们最终转换的位置,您离开了哪里. 然后根据这些数据优化网站或应用程序的关键路径,以提高转化率.

  我在上面提到了单个标签的报告原理. 如果要记录路径,则需要记录多个节点或操作. 这些操作可以在一个网站或应用程序中进行,也可以在不同的网站和应用程序中进行. 无论采用哪种格式,都必须确保可以永久传递此数据以记录路径. 例如,如果是不同网站之间的转移,则可能需要在URL之后添加参数:

  

  @姬小光的照片

  具体过程如下:

  

  @姬小光的照片

  访问第1页时的参数

  ?rel_id = page_1

  当参数变为: 离开第1页并访问第2页.

  ?rel_id = page_1,page_2

  访问第3页时离开第2页,参数变为:

  ?rel_id = page_1,page_2,page_3

  如果同一系统中没有多个页面,则只能控制登录页面,即PAGE_3,则链接上的参数足以说明用户的访问路径. 如果可以控制路径中的页面,则还可以基于唯一的设备ID或用户的唯一ID加上访问的时间顺序来确定用户的操作路径,即服务器获取的访问记录为:

  用户访问过?rel_id = page_1用户访问过?rel_id = page_2用户访问过?rel_id = page_3

  在这种情况下,报告代码需要嵌入到页面123中,并且每个页面仅需要报告其自己的URL. 报告逻辑应报告尽可能多的原创数据. 例如,可以添加当前页面的停留时间,以方便将来进行更复杂的数据分析.

  4.3.3转化率

  路径分析的目的是提高转换率,那么程序逻辑如何定义转换率?首先来看一下转化率的定义:

  在网站分析中,转化率通常定义为达到既定目标的次数与访问次数的比率.

  可以看出,定义的关键在于分母,分母是达到目标的次数. 我们的目标可以是下订单,购买或到达特定页面. 如果要到达页面,则页面跳转的每一步都有一个转换率,其余的是跳出率或跳出率. 如果要提高转化率,您不仅必须在着陆页上工作,而且还必须优化关键路径.

  因此,基于关键路径数据,可以通过分别分析特定页面的到达数量来计算转换率. 或者,如果您要通过下订单或付款来计算转化率,一种简单的方法是查看用户是否已到达“成功订购”或“成功付款”页面,并且前面有一条合理的依赖路径. 当然,最准确的方法仍然是基于实际订单数据和付款数据.

  5. 主流统计平台和工具

  目前,Internet上有许多成熟的数据统计平台和工具,每种都有其独特的特点和优势. 也有许多公司会考虑构建自己的平台,但我不知道这是否可行. 本章将分析利弊.

  5.1数据分析平台

  当前主流的APP或网站统计平台是: GrowingIO,Shence Data,MTA,百度统计,Google Analytics,Zhuge IO,Youmeng等. 您可以转到官方网站了解有关它的更多信息,但我不会在这里介绍.

  5.2行业分析报告

  还有许多用于行业分析报告的平台. 底层还通过大数据+ AI分析更高维度的结论,以供所有人查看. 例如,根据艾瑞咨询公司的数据报告,我相信从事互联网活动的学生有自己的藏宝箱,因此在此不再赘述.

  5.3自建数据平台的优缺点

  最后,谈谈自建数据平台的优缺点. 首先,业务数据是敏感数据,访问第三方必须将数据放宽到其他平台. 自建平台没有这个麻烦. 其次,尽管第三方平台提供了许多强大的功能,但它们无法实现定制的统计分析. 容易陷入困境. 自建平台要灵活得多,但需要相对较高的人员和资源.

  最后,无论您使用第三方平台还是自建平台,都停留在工具级别. 如果您想得出有价值的结论,则需要有经验的数据分析师来分析数据. 甚至AI也必须以科学的分析模型为指导,以根据正确的途径进行学习和发展.

  总的来说,我认为如果是一家初创公司,建议直接使用一个成熟的平台,基本上可以满足需求. 如果它是一家成熟的大公司,建议同时使用自建和外部使用. 一方面,它可以满足定制的需求. 另一方面,它可以借鉴外部工具的优势,相互学习并提供全面的参考.

  摘要

  最后,结合先前的知识,我们将回到本文开头的两个简短故事.

  第一银行神秘贷款行

  在第一个故事中,招行打电话给我的原因是在“电子信贷”页面上进行报告,并将其标记为关键操作. 如果用户浏览了此页面,则将其标记为“缺钱,迫切需要金钱”等. 在市场营销管理系统中,将这些用户筛选出来,市场营销人员会逐个召集促销产品.

  第二个统计差异的神话

  在故事二中,数据的差异是如何产生的?

  首先,两个平台可能具有不同的用户访问定义. 在此示例中,百度将打开页面的用户计为访问,而我们的自建平台被定义为具有唯一的设备ID,该ID被计为访问,此处有所不同.

  此外,如果在单击按钮后打开新页面,则有两种操作,一种是单击,另一种是进入新页面. 这里的统计口径也可能不同.

  最后,前面的3.1节提到了报告时间的权衡,因为报告时数据可能会丢失. 例如,用户的网络突然断开,网络传输过程中存在丢包现象,也会造成一定的差异. 因此,在这种情况下,只要确定逻辑上没有缺陷并且统计口径是一致的,就可以允许一定程度的不一致.

  问答网友提问

  问: 为什么百度Google搜索结果点击后会跳一次?

  答案: 由于搜索引擎无法在页面上主动嵌入统计代码,因此我们使用带有参数(4.3.2)的跳转方法在中间页面报告数据.

  问: 为什么所有邀请链接上都出现乱码?

  答案: 邀请机制着重于记录邀请关系,因此当您与他人共享链接并再次打开链接时,系统如何知道您共享了链接?这就是链接上乱码的参数. 为什么会出现乱码?这是因为系统想知道是谁邀请了它,而不希望其他人能够破解和篡改参数. 例如,如果活动ID是数字,则可以随意对其进行修改,以访问您可能不想看到的其他活动. 如果优惠券ID是自增数字,则可以遍历这些数字以接收可以采集的所有优惠券.

  问: 为什么不同系统计算的PV和UV不同?

  A: 根据以上所述,可能有五个原因:

  不同的掩埋逻辑;不同的报告机制;统计口径不同;程序错误;人为错误.

  首先,有必要弄清双方的统计能力,例如它们是基于服务器日志计数的页面打开量还是页面脚本报告的打开数量. 查看报告逻辑,可能是错误率不同或报告的数据不一致. 然后检查系统逻辑是否存在问题或是否有任何更改. 最后,让我们看一下统计信息中是否存在人为错误,从而导致最终统计信息中的错误.

  问: 为什么我们不能计算外商投资广告的展示次数?

  答案: 根据上面的内容,如果您要埋葬点并进行报告,则必须首先嵌入基本代码. 外国的广告都在其他平台上. 通常情况下,无法在外部页面上嵌入代码,例如在Moments广告的显示中.

  问: 如何计算外商投资广告的真实数据以防止被欺骗?

  答案: 如果可以使用外国投资地点来嵌入代码,或者在显示时我们可以请求自己的资源(图片,视频),或者可以主动调用我们的界面,则可以将其用作辅助参考数据. 但这也可能是欺诈行为,因此最好修改统计口径,例如实际到达我们自己的着陆页的结算规则,或采用CPS方法进行记录和清算,然后根据我们的实际交易量进行结算.

  问: 如何判断我们的手机为异常设备?

  回答: 我们知道某些设备会被微信或百度判定为异常设备,并且会拒绝使用其帐户. 不管设备做什么,我们只讨论一些基本的检测规则. 如果是微信本身,那么最基本的考虑就是帐户发送的请求中的设备信息是否完整,是否是真实设备,设备是否经常登录过多账户,设备是否经常更改IP,设备位置是否发生更改等都是考虑因素.

  也可以根据关联帐户系统的行为(例如,关联的QQ号是否异常)进行联合测试. 简而言之,公司自己的APP矩阵可以共享数据并全面确定设备的行为. 如百度部门,标题部门等.

  问: 为什么任何网站都可以推荐我在淘宝上搜索过的产品?

  回答: 该网站可以访问淘宝的广告,即该网站内嵌有淘宝代码,因此,如果您以前在淘宝上浏览过某些类别,它将被记录并在这些网站上再次推荐给您. 商品. 同样,与搜索相关的建议是相同的. 您在百度上搜索了一些内容,然后在许多网站上看到了这些单词,有时甚至有些尴尬.

  问: 我们的数据仍然安全吗?

  答案: 这种折磨可以这样理解: 首先,您在Internet上的所有数据仅存储在某些远程计算机中. 例如,银行营业额算是隐私,对吗?

  即使一般的银行员工无权查看,银行的DBA(数据库管理员)也不能闭着眼睛这样做,对吗?安全性是相对的. 互联网公司通常会加密和存储用户隐私数据,这对于普通员工绝对是不可见的. 只有具有相应权限的用户才能看到它. 因此,可以说总体上是安全的. 除了极端情况,例如黑客攻击,内部控制问题等.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线