云优cms采集(我要点外卖-数据采集难点日志)
优采云 发布时间: 2021-12-20 08:03云优cms采集(我要点外卖-数据采集难点日志)
背景
“我要订餐”是一个基于平台的电商网站,涉及用户、餐厅、配送人员等,用户可以通过网页、App、微信、支付宝等方式下单,商家下单后收到订单,它开始处理并自动通知周围的快递员。快递员将食物运送给用户。
操作要求
在运行过程中,发现了以下问题:
数据采集难点
在数据操作过程中,第一步是如何集中采集分散的日志数据,会遇到以下挑战:
我们需要对分散在外部和内部的日志进行采集并统一管理。过去,这块需要大量的工作和不同种类的工作,现在可以通过LogHub采集函数访问。
统一日志管理,配置创建和管理日志项,如myorder。为不同数据源生成的日志创建日志库。比如需要对原创数据进行清洗和ETL,可以创建一些中间结果Logstore。用户推广日志采集
为了获取新用户,一般有两种方式:
实施方法
定义如*敏*感*词*册服务器地址,生成二维码(传单、网页)供用户注册和扫描。当用户扫描页面进行注册时,可以知道用户是通过特定来源进入的,并记录日志。
http://example.com/login?source=10012&ref=kd4b
当服务器接受请求时,服务器输出如下日志:
2016-06-20 19:00:00 e41234ab342ef034,102345,5k4d,467890
在:
采集方式:
服务器数据采集
支付宝和微信公众号编程是典型的web端模型,日志一般分为三种:
实现方法 终端用户记录访问Web/移动终端页面用户行为
页面用户行为采集可以分为两类:
实现方法 服务器日志运维
例如:
实施方法
参考服务端采集方法。
不同网络环境下的数据采集
LogHub在每个Region提供接入点,每个Region提供三种接入方式: