汇总:推荐系统数据采集规则

优采云 发布时间: 2022-11-22 20:30

  汇总:推荐系统数据采集规则

  “买点是从互联网获取数据的基础,数据采集系统是提高埋点效率、保证埋点标准化和数据质量的利器。”

  埋点,在互联网上,可以说是一种很常见的技术。大到BAT,小到创业公司,如果没有埋点,那么数据源的大墙基本就没了。本文简要介绍埋点概况及数据采集系统。

  01

  —

  什么是埋点

  埋点是指捕获、处理和发送特定用户行为或事件的相关技术和实现过程。例如,用户点击一个按钮,浏览一个页面等。

  刚入行的小朋友可能会问:为什么要埋头?答:就是获取数据,即获取用户在何时、何地、做了什么操作。你仔细想想,如果不埋点,用户点了首页的一个按钮,你怎么知道用户点了?

  稍有技术背景的小朋友又会问:如果我点击某个按钮,网站会收到一个请求。来头岂不知,何必埋之?答:因为并不是所有的操作后台都能接收到请求,很多网站页面为了方便用户,一次请求加载了很多内容,而它们之间的tab切换根本不请求服务器,所以会漏掉数据。APP端就更不用说了,很多都是原生页面,而且页面剪来剪去,对网络完全没有请求。

  那么,如果你向服务器请求过数据,难道不需要埋点吗?哈哈,埋点的分类来了:前端埋点和后端埋点。

  所谓的前端埋点就是上面说的。在网站或APP的前端嵌入一段JS代码或SDK。每次用户触发特定行为时,都会采集

这样的日志并定期发送到服务器。这是完整的。前端用户行为日志采集

。为什么叫“埋点”呢?是因为在每个目标位置都埋了一段获取代码,所以形象地称为埋点。前端埋点工作量大。例如,页面上有 20 个按钮。一般情况下,每个按钮都需要埋码。有些网站有数千页,埋下代码可能会让人筋疲力尽。

  所谓后端埋点,其实就是自然而然的向服务器请求和交互的数据类型。这种数据不需要经过前端埋点。它只需要在服务器端记录用户的每一次请求。比如用户在电商网站上进行搜索,每次输入关键词进行搜索,都必须请求后台(否则没有搜索结果)。可以记录内容、时间、人物等信息。工作量比前端埋代码小很多。

  当然用户会问,比如我在搜索页面输入了关键词却没有搜索到。如果是后端埋点,不就记录了吗?你说的对,但是这种数据一般比较少,这种数据没必要做前端埋点。毕竟后端埋点的实现要比前端容易的多。当然具体情况具体分析。如果真的是精细化运营,哪怕是一点点的用户行为都要算进去,但是性价比是需要衡量的。

  因为本文主要想讲的是数据采集系统,如何设计实现埋点,以及各种埋点事件模型的介绍,涉及的内容还是很多,这里就不展开了,我以后有时间再深入分享。

  02

  —

  

" />

  什么是数据采集系统

  一般情况下,埋点的设计和实现都是人工完成的。数据PM会梳理埋点需求,设计埋点规则,研发负责埋点落地。

  但正如上文简单提到的,埋点工作量巨大,重复内容很多,这无疑不是一种高效的方式。而更重要的是,埋点和采集的数据需要经过一系列的数据清洗、数据处理、数据开发,才能产出业务人员希望看到的报表或报告。这是一条很长的数据链。

  数据采集​​系统此时应运而生。

  事实上,市面上还有很多数据采集系统,很多网站都提供免费的数据采集服务。比如谷歌的Google Analysis、百度统计、友盟等等。它们本质上是数据采集系统。以下为百度统计截图:

  GA在web端做的很好,而友盟则专注于APP端。

  这些网站的核心原理就是提供一段JS(web端)或者SDK(APP端)。用户将这段代码嵌入自己的网站,然后登录GA或百度统计,就可以看到数据的各种表现。

  除非有一些比较个性化的埋点需求,比如一些特殊的按钮和特殊的操作是你想要采集

的,否则你可以简单地把网站的点全部埋起来。

  你会发现这个平台大大节省了埋点的工作量,同时也节省了大量的数据加工处理工作,而且还有各种现成的可视化分析模块进行分析,非常方便。下图:

  有得也有失。你失去了什么?不保证数据安全。为什么?因为你在第三方网站嵌入的JS和SDK,本质上是采集了用户的前端行为,并发送给第三方服务器,所以你网站的用户情况,第三方网站基本上是一清二楚的.

  而且,第三方平台采集

的是流量相关内容,交易、搜索等后台相关内容无法被第三方网站分析,除非公司自己传递给第三方网站。说着,就不见了。但是,它是免费使用的,这不是很好吗?这取决于如何衡量它。

  但是,对于大型工厂来说,数据采集系统一般都走在自主研发的道路上。

  03

  —

  

" />

  数据采集​​系统包括哪些模块

  那么,数据采集系统通常包括哪些模块呢?

  (1)数据采集模块

  该部分主要完成数据采集的各种配置,主要包括站点接入、埋点应用、埋点方案等模块。

  (2) 数据管理模块

  这部分主要是对采集到的数据进行宏观管理。包括网站管理、活动管理等。

  (3) 统计分析模块

  这部分主要是分析各个维度的流量数据。很多内容其实和BI分析系统是有重叠的,比如流量路径分析,留存分析,归因分析等等。还有很多基本的监测报告。

  (4) 采集监控模块

  这部分主要是对采集

到的项目进行监控。

  ●

  ●

  后台回复“入群”即可加入小z数据干货交流群

  最新版本:采集插件是什么

  什么是采集插件

  

" />

  2020-09-19 阅读量过万的综合百科 投稿:admin

  

" />

  采集

插件是指利用其他网站的文章列表和缓存读取技术,由网页程序自动读取其他网站的内容。存储过程就是采集过程,是一种信息聚合技术。通过这种技术,可以采用复制粘贴的方式,将其他站点相对固定更新的栏目等内容变成自己网站的一部分,并且可以分为站内和站外采集。In-site一般用于较大的站点,将很多栏目聚合到一个节点集中展示。

  免责声明:叶柏客所有作品(图文、音视频)均由用户自行上传分享,仅供广大网友学习交流。如果您的权利受到侵犯,请联系

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线