“埋点”是互联网获取数据的基础;数据采集系统

优采云 发布时间: 2021-08-24 20:07

  “埋点”是互联网获取数据的基础;数据采集系统

  “买点是互联网获取数据的基础;data采集系统是提高埋点效率,保证埋点标准和数据质量的有力工具。”

  埋点,在互联网上,可以说是一种通用技术。大到BAT,小到创业公司,如果没有埋点,那么数据源的大局基本就丢了。这个文章简单介绍了埋点的概况和数据采集系统。

  01

  —

  什么是埋点

  埋点是指用于捕获、处理和发送特定用户行为或事件的相关技术和实现过程。例如,用户点击某个按钮,浏览某个页面等。

  刚接触这个行业的孩子可能会问:你为什么要埋东西?答:就是获取数据,即获取某个用户的时间、地点、操作。仔细想想。不埋点,怎么知道用户点击了前端页面的按钮?

  有点技术背景的孩子又会问:我点击一个按钮,网站不会收到请求,我后台不知道,那我为什么要埋?答:因为不是所有的操作后台都能接收请求,为了方便用户,很多网站页面在一个请求中加载了很多内容。它们之间的选项卡切换根本不会请求服务器,因此它们会错过。丢弃数据。更别说APP端了,很多都是原生页面,页面来回切换,完全没有网络请求。

  那么,如果服务器端有请求的数据,就不用埋了吧?哈哈,这里是埋点的分类:前端埋点和后端埋点。

  所谓的前端埋点就是上面所说的。在网站front-end 或APP中嵌入一段JS代码或SDK。每次用户触发特定行为时,都会定期采集这样的日志并发送到服务器。 , 这样就完成了前端用户行为日志的采集。为什么叫“埋点”?是因为采集代码埋在每个目标位置,所以视觉上叫做埋点。前端嵌入有很多工作。例如,页面上有 20 个按钮。一般情况下,每个按钮都需要埋在代码中。有的网站有几千页,代码可以穷尽。

  所谓的后端埋点,其实就是一种自然而然地请求和服务器交互的数据类型。这种数据不需要通过前端进行掩埋。只要把用户的请求记录在服务器端就行了。比如用户搜索一个电商网站,每次输入关键词搜索,肯定会请求后端(否则不会有搜索结果),然后每次从服务器端发送请求只记录内容、时间、人物等信息。工作量远小于前端嵌入代码。

  当然,朋友会问,比如我在搜索页面输入关键词但是没有搜索。如果是后端埋点,不就记录了吗?你说得对,但是这种数据一般比较少,不需要对这些数据做前端埋葬。毕竟后端埋地的实现要比前端容易很多。当然具体情况具体分析,如果真的是精细化运营,哪怕是用户最轻微的行为都要算进去,但是性价比是需要衡量的。

  因为这篇文章主要想讲data采集系统,所以关于如何设计、实现、介绍各种埋葬事件模型的内容还有很多,这里就不展开了。以后找时间深入分享。

  02

  —

  什么是data采集system

  一般情况下,埋点的设计和实现都是手工完成的。数据PM整理埋点需求,设计埋点规则,研发负责埋点落地。

  但是如上所述,埋点的工作量巨大,重复的内容很多,这无疑不是一种高效的方式。而更重要的是,埋点和采集数据需要经过一系列的数据清洗、数据处理、数据开发,才能产生业务人员想要看到的报表或报表。这是一个很长的数据链路。 .

  Data采集system,于是应运而生。

  其实市面上还有很多data采集系统,很多网站推出了免费的data采集服务。比如谷歌的谷歌分析、百度统计、友盟等等。本质上,它们都是 data采集systems。以下是百度统计截图:

  

  GA在网页端采集做得很好,友盟专注于APP端。

  这些网站的核心原则是提供一个JS(web端)或SDK(app端)。用户可以将此代码埋在自己的网站中,然后登录GA或百度统计,查看数据的各种表现形式。

  除非有一些比较个性化的埋点要求,比如一些特殊的按钮和特殊的操作,我也想采集下来,或者干脆把所有的点都埋在网站上。

  你会发现这个平台大大节省了埋点的工作量,同时节省了大量的数据处理和处理工作,并且有各种现成的可视化分析模块进行分析,非常方便。下面:

  

  如果你赢了,你就输了。缺少什么?无法保证数据安全。为什么?因为你埋了第三方网站的JS和SDK,本质上是把前端采集中用户的行为发送到第三方服务器,所以你网站上的用户情况本质上就是首先网站三方都说清楚了。

  而且,第三方平台采集都是流量相关的内容。交易、搜索等后端相关内容不能分析,除非公司自己将其传递给第三方网站,否则第三方网站无法分析这部分。内容缺乏分析的全面性。不过,免费使用不香吗?这取决于如何衡量它。

  但是,对于大工厂来说,data采集系统一般会走向自主研发的道路。

  03

  —

  data采集系统收录哪些模块

  那么,data采集 系统中通常收录哪些模块?

  (1)数据采集module

  这部分主要完成数据采集的各种配置,主要包括:站点访问、埋葬申请、埋葬计划等模块

  (2)数据管理模块

  这部分主要管理采集的数据。包括网站管理、活动管理等

  (3)统计分析模块

  这部分主要是对各个维度的流量数据进行分析。很多内容其实是和BI分析系统重叠的,比如流量路径分析、留存分析、归因分析等等。还有很多基本的监控报告。

  (4)采集监控模块

  这部分主要是监控采集项目。

  

  ●使用 Pandas 可在几秒钟内获得 24 个 Excel 报告!

  ●Top 10 Python 数据可视化库!

  后台回复“入群”即可加入小z数据干货交流群

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线