文章实时采集(我要点外卖-数据采集难点日志)
优采云 发布时间: 2022-04-10 07:26文章实时采集(我要点外卖-数据采集难点日志)
背景
“我要*敏*感*词*的快递员。快递员将食物交付给用户。
操作要求
在运行过程中,发现了以下问题:
数据采集 难点
在数据操作过程中,第一步是如何集中采集分散的日志数据,会遇到以下挑战:
我们需要采集外部和内部的日志并统一管理。过去,这块需要大量的工作和不同种类的工作,但现在可以通过 LogHub采集 功能完成统一访问。
统一的日志管理、配置、创建和管理日志项,如myorder。为不同数据源生成的日志创建日志存储。例如,如果您需要对原创数据进行清理和ETL,您可以创建一些中间结果Logstore。用户提升日志采集
获取新用户一般有两种方式:
实施方法
定义如*敏*感*词*册服务器地址,生成二维码(宣传单、网页)供用户注册和扫描。当用户扫描这个页面进行注册时,他们可以知道用户是通过特定的来源进入的,并记录了一个日志。
http://example.com/login?source=10012&ref=kd4b
当服务器接受请求时,服务器会输出以下日志:
2016-06-20 19:00:00 e41234ab342ef034,102345,5k4d,467890
在:
采集方式:
服务器数据采集
支付宝和微信公众号编程是典型的网页端模式,日志一般分为三种:
实现方式 终端用户登录访问网页/手机页面的用户行为
页面用户行为采集可以分为两类:
实现方法 服务器日志运维
例如:
实施方法
参考服务器 采集 方法。
不同网络环境下的数据采集
LogHub在每个Region都提供接入点,每个Region提供三种接入方式: