实时文章采集( 日志服务LogHub提供日志数据实时采集功能支持30+种手段)
优采云 发布时间: 2021-10-29 23:06实时文章采集(
日志服务LogHub提供日志数据实时采集功能支持30+种手段)
21CTO 社区指南:日志服务 LogHub 提供日志数据的实时采集和消费。其中,实时采集功能支持30+种方法。下面简单介绍一下各个场景的采集方法。
日志服务LogHub功能提供日志数据的实时采集和消费。实时采集功能支持30+种方法。下面简单介绍一下各个场景的接入方式。
data采集一般有两种方式,区别如下。这里主要讨论通过LogHub采集进行流式导入(实时)。
背景
“我要点外卖”是一个基于平台的电商网站,用户、餐厅、送餐员等,用户可以通过网页、App、微信、支付宝等方式下单;商家收到订单后开始处理,并自动通知周边快递员;快递员将食物送到用户手中。
操作要求
在运行过程中,发现了以下问题:
获取用户难。向渠道(网页、微信推送)投放大量*敏*感*词*,接收部分用户,但无法判断各渠道效果
用户经常抱怨发货慢,但是下单、发货、处理的慢在什么阶段?如何优化?
用户操作,经常搞一些优惠活动(送优惠券),却得不到效果
排期问题,如何在高峰时段帮助商家提前备货?如何派送更多的快递到指定区域?
客服,用户反馈下单失败,用户背后是什么操作?系统是否有错误?
数据采集难点
在数据操作的过程中,第一步是如何集中采集分散的日志数据,会遇到以下挑战:
我们需要采集分散的外部和内部日志进行统一管理。以前这个区域需要做很多工作,现在可以通过LogHub采集函数访问。
统一的日志管理和配置
创建一个管理日志项目Project,例如叫myorder
创建日志存储Logstore,用于从不同数据源生成日志,例如:
如果需要清理原创数据和ETL,可以创建一些中间结果logstore
(更多操作请参考快速入门/管理控制台)
用户推广日志采集做法
定义如*敏*感*词*册服务器地址,生成二维码(传单、网页)供用户注册和扫描。当用户扫描页面进行注册时,他知道用户是通过特定来源进入并记录日志的。
;ref=kd4b
当服务器接受请求时,服务器输出如下日志:
2016-06-2019:00:00e41234ab342ef034,102345,5k4d,467890
采集方式:
1. 应用通过Logtail将日志输出到硬盘采集
2. 应用是通过SDK编写的,见SDK
服务器数据采集
支付宝/微信公众号编程是典型的web端模式,日志一般分为三种:
实践
日志写入本地文件,通过Logtail配置正则表达式写入指定Logstore
Docker中生成的日志可以使用容器服务集成日志服务
Java程序可以使用Log4J Appender日志,无需日志记录,LogHub Producer Library(客户端高并发写入);Log4J 附加程序
可以使用SDK编写C#、Python、Java、PHP、C等
Windows服务器可以使用Logstash采集
最终用户日志访问
Web/M 站点页面用户行为
页面用户行为采集可以分为两类:
1. 页面与后台服务器交互:如下单、登录、退出等。
2. 页面无后台服务器交互:前端直接处理请求,如滚动、关闭页面等。
实践
第一个可以参考服务器采集方法
第二个可以使用Tracking Pixel/JS Library来采集页面行为,参考Tracking Web interface
服务器日志运维
例如:
实践
不同网络环境下的数据采集
LogHub在每个区域提供接入点,每个区域提供三个接入点:
更多信息请参考网络接入,总有一款适合您。
其他
查看LogHub的完整采集方法。
查看日志实时消耗,涉及流计算、数据清洗、数据仓库、索引查询等功能。
作者:简志,阿里云计算高级专家,擅长日志分析处理领域