实时文章采集(有没有更好的解决办法么?CDN实时日志一站式解决方案上线 )

优采云 发布时间: 2021-11-18 12:24

  实时文章采集(有没有更好的解决办法么?CDN实时日志一站式解决方案上线

)

  背景

  CDN是非常重要的互联网基础设施。用户可以通过CDN快速访问网络上的各种图片、视频等资源。CDN在访问过程中会产生大量的日志数据。随着当今日益复杂的网络环境的变化和业务的快速增长,日志数据变得越来越大,越来越多维度。这些数据通常与用户的下一步业务决策密切相关。

  

  在与 CDN 用户的交流中,我们发现用户通常会面临以下困境:

  • 无用户数据:CDN 访问日志由主要CDN 厂商生成,用户无法直接获取。现阶段大部分CDN厂商只提供离线日志下载,日志数据从生成下载到用户需要几十分钟到几个小时。如此大量的数据产生了延迟,大大降低了实时流处理、告警等对实时性要求高的场景的分析价值。

  • 多分析需求:为了解决各种定制化的分析需求,通常的做法是搭建和运营开源系统,比如kafka做数据通道,storm或flink做流式分析,spark和spark做数据分析。hadoop等。

  • 可视化要求:对于最终分析结果的展示,结果存储在数据库(小结果集)和HBase(大结果集)中,然后通过连接各种可视化工具完成。

  综上所述,对日志进行更实时、更详细的关注和分析的需求逐渐出现。但是对于普通用户来说,对CDN日志进行实时离线分析并不容易。他们需要支付建设、运维和管理费用。为了完成需求,有时需要编写大量代码,但最终未必能得到好的结果。整个CDN实时日志涉及的环节多,对服务质量要求严格,技术挑战比较大。有更好的解决方案吗?

  CDN实时日志一站式解决方案上线

  近日,阿里云CDN上线了实时日志功能,开放了日志服务(SLS)的能力,将CDN采集的实时日志在不到60秒的时间内送达日志服务实时、交互式分析和呈现报告。通过CDN日志的实时分析,可以快速发现和定位问题,进而挖掘日志数据,提升数据决策能力,将业务推向新的高度。点击跳转到CDN实时日志页面,详细了解该功能。

  

  CDN实时日志服务和日志下载的区别

  CDN实时日志为实时采集日志数据,日志数据平均延迟不超过30秒。同时CDN开放了日志服务分析能力,为客户定制了4份分析报告,可以快速分析日志,发现问题,及时做出决策。CDN提供的离线日志下载只能下载4小时前的每小时日志数据。

  CDN实时日志系统中的简化数据流由下图组成:

  

  • 实时数据采集:在直播和回放过程中,会产生大量的日志。需要在1秒延迟内将这些日志实时采集发送到日志中心。

  • 数据清洗:对日志采集后的数据进行清洗,以满足不同场景的处理需求(例如对不同域名的日志进行定制化分析)。

  • 数据处理和存储:针对不同的应用场景,数据处理和存储方式不同。

  实时处理:对海量数据进行真正的多维度聚合统计分析。表存储:实时统计后的各种监控指标。对象存储:将日志打包压缩,供用户离线下载。数据仓库:数据离线分析、用户行为分析、物业报表等场景。CDN实时日志1.实时的价值

  传统的日志分析模式需要您下载日志并再次上传到数据仓库。在数据仓库中进行了一系列的清洗和数据模型定义之后,就需要进行数据分析。这个过程需要更多的人力和更长的维护时间。.

  CDN实时日志可以是采集来自全球多个地区、上万个节点的日志,一般延迟不超过60秒,否则日志的实时价值会大打折扣. 同时,服务开通后,CDN会自动将日志数据下发给日志服务(SLS),免去繁琐的传统日志分析流程,实时查看日志分析结果。

  2. 无需写代码,无需运维

  前面说过,如果要自己搭建日志系统来解决业务定制的需求,开发、运维、管理的成本都比较高。接入CDN实时日志系统,可以让开发者回归到业务本身的创新和性能上。,减少不必要的投资。

  3. 多维SQL分析,每秒10亿+规模

  CDN实时日志系统支持每天千亿、万亿日志采集7*24小时不间断,海量日志实时多维分析,流计算系统在毫秒级。让用户远离日志分析中各种复杂的“琐事”,更专注于对更贴近业务、更有价值的数据的“分析”。

  同时,实时日志可以轻松应对大数据处理组合维度、高计算复杂度、各种流量高峰影响等业务场景。保存日志供用户下载的对象存储系统(Oss)可以提供高吞吐量的数据下载能力,数据仓库系统可以支持复杂的分析场景。

  4. 数据可视化与大数据挖掘

  最终分析结果的显示也非常关键。CDN实时日志可以为用户提供基于业务的可视化报表服务。用户可以轻松控制业务健康、缓存命中率、平均下载速度、流量状况、网络速度、运营商和扩展。时间分布等数据。

  5. 日志、监控、报警联动一站式解决方案

  CDN场景下,对服务的可用性和性能要求很高,需要对各种异常情况进行实时准确的告警,这就需要一个可靠的监控告警系统。未来CDN日志系统将与监控、报警、处理机制联动,自动解决日常问题,缩短业务故障时间,避免用户损失。

  五、典型应用场景1.直播

  在直播场景下,CDN日志实时下发给日志服务后,可以做几个典型的实时分析。

  直播数据非常重要。拥有直播日志后,您可以控制流媒体终端的各种实时状态:

  • 推流概览:实时了解当前推流数量、每个推流的流量和速度,以及各省、运营商维度的统计

  • 推流质量:多维度推流质量统计,关键推流质量实时监控

  • 错误源追踪:快速定位错误源(直播源、服务器、客户端、运营商)

  下图展示了直播的各种监控统计。从整体流媒体质量来看,99%以上的流媒体正常,说明流媒体质量非常好。

  下表统计了各种错误的原因。可以看出,最大的错误来源是客户端主动断开连接。

  

  

  2.CDN 下行链路

  播放端(CDN下游)是用户直接接触的,它的好坏直接决定了用户的观看体验。在下游日志中,我也可以从多个维度进行分析:

  • 总的质量:

  Health:在所有访问中,有多少请求是成功的

  缓存命中率:命中率越高,用户访问延迟越低,体验越好

  下载速度:这也是影响播放质量的重要因素

  • 多维分析:

  顶级域名访问量、流量:重点域名访问质量

  地理和运营商统计:每个环节的质量

  下载、速度、延迟:多个关键指标

  • 错误诊断:

  实时误差QPS,比值:整体误差情况

  Error Top domain name, URI: 是否与自身相关的错误

  Error Top Region, Operator:错误与外部因素有关吗?

  分别报错客户端:是不是新发布的版本引入的问题

  

  在下图中,可以看到大部分错误都出现在这个客户端版本中,所以你需要怀疑是不是新版本带来的?

  

  3.用户行为分析

  用户的访问行为最终可以反映在日志中。通过对日志的分析,我们可以了解用户是如何访问的,哪些资源是热门资源。通过用户的来源,我们可以更清楚的了解用户的来源,未来的运营和推广也可以做得更好。这是相关的。另外,监控异常IP可以更早的发现异常,比如高频访问IP,是否有爬取数据的嫌疑。

  

  

  演示演示:

  当系统出现报警或用户投诉时,一般的处理流程往往是类似的:

  

  在这个过程中可以发现,整个分析过程是从上到下,从面到点,交互式分析,涉及到Drill Down/Roll Up等很多方面。因此,灵活性和便利性是系统的两个基本要素。在下面的视频中,我将展示如何在日志服务中交互式分析 CDN 日志。

  另外,我们还提供了一个Demo,你可以实际体验一下Mock的CDN日志分析:Demo连接

  六、访问流程

  目前,CDN控制台已经开通了实时日志功能,用户可以通过简单的操作,快速、无障碍地使用CDN实时日志功能。主要步骤如下:

  登录CDN控制台。在左侧导航栏中,单击日志。在日志页面,单击实时日志推送。一键创建日志服务。配置Project、Logstore、Region等信息,然后单击下一步。选择关联的域名并绑定,然后单击创建。七、 计费方式和活动

  一般实时日志是按照推送成功的次数收费的,每万条0.06元收取费用,其中已经收录了日志服务分析的成本。因此,在一定的使用范围内,您无需支付任何日志*敏*感*词*用。

  但在以下情况下,您也需要为日志服务付费:

  1、超过7天的日志存储部分将由日志服务另行收费。

  2、日志服务的外网读写开销。

  关于日志*敏*感*词*,。

  11月,CDN实时日志服务推出限时50折优惠活动。点击购买,点击跳转到CDN实时日志页面,详细了解该功能。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线