解决方案:【演讲实录】多源异构流量分析平台的实践

优采云 发布时间: 2022-11-22 21:47

  解决方案:【演讲实录】多源异构流量分析平台的实践

  个人简介

  现任滴滴出行技术专家。从事基础设施开发多年,曾服务于百度、新浪、滴滴等公司。熟悉高性能网络服务的设计与开发,对数据中心网络流量分析与规划有深刻理解。

  主题介绍 实时分析网络流量,可以帮助网络管理员了解网络中的业务负载状态、长期趋势、流量是否异常等;帮助运维人员了解应用在网络中的分布情况、流量使用情况、执行效果等;帮助业务了解用户的流量来源、流量消耗等数据,这就需要从各种不同的硬件设备上采集不同结构的数据流量,那么如何整合多个数据源呈现给不同维度的用户就成了一个巨大的挑战对交通分析系统的挑战。希望和分享您在流量分析系统实践中的想法和经验。

  精彩演讲记录 技术头条将定期与您分享技术大咖的精彩演讲记录,为互联网从业者提供更多精彩的技术干货,打造技术圈前沿技术交流平台。

  《多源异构流量分析平台实践》

  大家下午好。接下来,我想和大家分享一下我们在流量分析平台建设方面的一些经验。在我们的网络中,流量数据有很多来源,每个来源都有不同的数据格式:

  看第一行。这是各种常见的网络设备。它们都有自己的数据格式,如NetFlow、sFlow、NetStream等;第二种一般是我们系统管理员或者运维同学使用的。每个软件也有自己独特的数据格式。第三类数据一般是业务运行过程中产生的统计信息,比如这几类WebServers或者各种容器等,导出的流量日志与业务密切相关。

  接下来,我们一起来看看吧。不同的数据源会有不同的数据维度,比如有不同的统计周期。与网络设备一样,数据生成周期与硬件设计有关。可能是30秒,也可能是一分钟、五分钟等等;也有不同的采样率。例如,我们在高流量节点采集

数据,当受限于处理能力时,会使用采样。采样比例也不一样,可能是百分之一,也可能是百分之五。采样方式可以是根据数据流或数据包个数进行采样;而且不同的数据源会有不同的数据输出格式,比如网络设备生成的格式,比如Netflow v5/v7/ V9、Sflow、Netstream等。要求我们使用不同的格式解析器进行处理。通常我们在服务器上采集数据的时候,经常会用到图中第二行的一些工具,可能还有很多没有列出来。是的,这些软件方法生成的数据格式比较分散,有的是二进制格式输出,有的是文档格式输出,最后一个就是我们的应用日志输出,基本都是文本格式,但是每一个的格式应用不同。全部都一样。对于以上不同的数据格式,需要采用不同的方法统一维度和结构,然后才能进行聚合分析。这些软件方法生成的数据格式比较分散,有的是二进制格式输出,有的是文档格式输出,最后一个就是我们的应用日志输出,基本都是文本格式,但是每个应用的格式都是不同的。全部都一样。对于以上不同的数据格式,需要采用不同的方法统一维度和结构,然后才能进行聚合分析。这些软件方法生成的数据格式比较分散,有的是二进制格式输出,有的是文档格式输出,最后一个就是我们的应用日志输出,基本都是文本格式,但是每个应用的格式都是不同的。全部都一样。对于以上不同的数据格式,需要采用不同的方法统一维度和结构,然后才能进行聚合分析。

  我们要注意这些不同的数据源产生的数据也可能有不同的量级。右边是我们标准数据中心的*敏*感*词*。首先,我们可以看到有重要的网络设备,交换核心,汇聚层,接入层设备等,每一次数据访问都会产生相应的网络流量,并被记录下来。

  服务器上还有各种物理和虚拟网卡设备,下面还有各种容器和web框架。层数越低,产生的日志量越大,数据会从上到下不断放大。

  作为一个大数据平台,我们有很多不同的用户,每个用户需要不同的视图。比如我们的网络管理员,他会利用流量分析数据来做网络规划,网络流量调度;系统管理员可以利用这部分数据来监控服务器是否正常工作,状态是否稳定;业务运维的同学会关心业务流量是否稳定,会关心部分流量的暴涨暴跌。当这些问题出现时,流量从何而来?什么设备通过了?哪些商业模式受到了影响?流量异常的原因是什么?是否有部分用户访问异常?还是网络有问题?其中一些是我们的开发和测试人员,在线调试时谁更关心这个流量;最后可能是我们的财务和业务人员,他们比较关心我们流量的分布情况,比如用了哪些产品线,成本划分是多少。让我总结一下这些人。他们主要需要三个方面的可见性。一个是网络拓扑的可见性和应用拓扑的可见性,也就是我的应用调用,一个是业务。独立于业务的视图。一个是网络拓扑的可见性和应用拓扑的可见性,也就是我的应用调用,一个是业务。独立于业务的视图。一个是网络拓扑的可见性和应用拓扑的可见性,也就是我的应用调用,一个是业务。独立于业务的视图。

  

" />

  接下来,让我们看一下一个基本的流量分析系统的组成。首先是流量比较大。我们需要一个分流器来分流压力,因为后面的应用分析越详细,对处理器的压力就越大,分流器的选择,可以使用一些硬件设备,比如使用交换机进行二层分流,或者使用一些定制硬件做三层分流。第二项是流量探测器。splitter第一次分流后,我们需要通过probe对需要分析的流量进行过滤,然后进行第二次流量筛选或者直接做一些简单的统计工作。目前比较流行的是使用DPDK或者tilera/cavium/netrnome等硬件来做。

  对于网络设备直接产生的采样流量,我们需要一些*敏*感*词*来接收数据。该部分的协议处理可参考IETF文档或厂商手册进行开发;为了在自己开发的一些应用中进行采样,我们还需要一些私有的receiver。(此处不一一列举)

  接收到所有的流量后,我们需要做一些基础的处理,因为针对不同的数据来源和需求者,我们需要先对数据进行过滤清洗,去除不必要的特征,统一时间度量和识别。比如网络管理员只需要流量的基本特征,而业务管理员可能需要流量的一些具体描述,比如流量属于什么业务,业务接口调用什么,调用是否成功或不是。需要进一步研究拆分和聚合。

  数据范围足够缩小后,就需要一些自己开发的应用解析器了。之前的TCP/UDP/HTTP等协议都比较标准。对于 SSL 数据,需要使用私钥进行解密。那么对于PB、THRIFT等一些RPC调用,可能只有我们的应用本身知道,所以需要我们自己解包分析。

  在每一层数据处理之间,一般都需要在一些队列中缓冲大量的数据,因为我们的流量有高峰也有低谷,做一些缓冲可以避免我们后续处理流量的突然压力。

  对于一些我们需要实时查看的东西,目前的处理模型要么是STORM,要么是SPARK,要么是ES。来自这些平台的数据通常用作安全和实时推荐等系统的数据源。对于大量的离线数据处理,Hbase显然是最值得推荐的方案。

  这些异构数据的集成一般是从以上几个方面进行的。只有时间和空间统一,数据才能进行比较。通过识别,可以关联交通数据。映射过程就是将不同的数据进行转换,比如网络的五元组如何映射到应用标识,应用标识如何与业务关联,不同业务标识如何转换,这些都关系到最终的结果数据挖掘的价值。

  存储的选择相对简单。比如一些长期的流量数据,RRD就很适合,因为RRD对系统资源要求不高。我们前面会做一些分布策略,做一个小的集群,完全可以存储大量的数据。部门数据;对于一些时间序列存储较多的比较*敏*感*词*的数据,一般使用opnetsdb和influxDB。对于这两个存储,我的看法是如果我们有比较*敏*感*词*的需求,有好的HBASE managers 我们选择opentsdb,因为需要比较有经验的管理员来维护这个东西。如果我们的规模是中小型的,influxDB 就足够了。那么对于一些关系型数据,存放MYSQL就足够了。

  下面说说常见的流量分析系统:

  镜像流量系统的难点在于对​​大量流量的分析和聚合,需要很强的技术开发能力。

  数据采集​​方法在于数据流的恢复和关联。数据采集​​方式比较全面,但格式相对复杂。如何统一格式是最大的问题。

  

" />

  日志流量一般取决于我们的业务维护人员。需要在每台服务器上部署一个采集

器。采集

器不断地将增量日志推送到我们的消息队列。如此大量的日志,我们需要通过 、名称,甚至容器名称、业务名称,将不同的日志进行分类,然后再送入存储进行分析。

  可视化的方式我就不多说了,表格是最简洁的。从平面到立体,每一种展示方式都有不同的侧重点,根据自己的需要选择即可。

  流量分析系统的用途非常广泛,不仅是列举的这些,还有很多需要我们去探索的,重点是里面的流量规划、用户分析、调用链分析。

  流量分析数据可以帮助我们推断未来的流量趋势,并在此基础上帮助企业更好地规划资产配置;

  多角度的实时分析可以帮助我们更好地识别用户特征,利用现有的商业智能策略更好地服务于用户的消费行为。

  最后是调用链。调用链现在也比较流行。我们想了解用户进入网站后整个服务过程中的服务效果和服务质量。这部分也可以通过流量分析系统地得到。

  关于未来,我觉得网络分析有几个方向。第一是继续降低成本,因为流量分析服务器或者说我们的硬件设备还是贵一点,降低分析成本可以扩大覆盖面;另一个是需要专家系统。,首先,大多数时候,我们只是记录流量。未来我们可以将我们工程师的经验融入到专家系统中,可以更准确的定位网络中的问题,也可以分析出网络中潜在的问题。.

  还有更复杂的应用识别,因为现在有些协议比较复杂,相关性可能更强。我们需要做更多的事情,最终提高实时性。大多数流量分析现在只能完成。实现秒级的全网流量分析,未来希望做到毫米级,甚至更好的实时性,提高数据的使用价值。

  最后,谢谢大家!

  现场视频

  总结:如何挖掘网站seo优化关键长尾词分析

  2021-12-03

  营销

  一品唯客01

  一、使用工具查询索引

  关键词的竞争力对于不同的搜索引擎可能是不同的。以百度搜索引擎为例。其产品包括关键词索引查询工具,可以在百度搜索引擎中快速查询关键词。关键字的收录情况,可以了解关键字在最近一段时间内的查询搜索情况。

  

" />

  一般来说,关键词关键词在30天内的索引少于500条的关键词很容易做SEO优化关键词。对于指数在1000以上的关键词,自然排名需要更多的人力物力。是否按比例给网站返回关键字,需要我们自己考虑。

  二、引擎搜索显示页数

  对于百度SEO搜索引擎,关键词搜索后,结果会显示有多少页内容相同。这个数字是搜索引擎根据关键词的内容判断为相关的所有页面,也是竞争页面。当然,数量越少,竞争压力就越小。

  3.查看搜索引擎中的关键词

  上面说了,对于SEO优化关键词,首先要了解我们的竞争对手,看看有哪些网站在与搜索引擎中选择的关键词竞争,是否有来自权威门户或知名网站的竞争品牌。

  

" />

  用户观察首页上有哪些页面是关键词,是内页、首页还是产品展示页。通过这些对你的网站是否具有竞争力的综合考虑,你就可以确定优化的方向和关键词的选择。

  4. 查询关键词 PPC

  例如,在百度上搜索时,广告内容通常会出现在首页。这就是所谓的竞价排名。这个时候我们需要关注有没有出价排名,有多少相关。

  对于竞价排名较多的网站,首页推广优化难度较大,后期效果可能不是很理想,或者难以达到展示首页的目的。

  以上是一品微客小编从以下几个角度对优化进行的分析。如果您有SEO优化需求,欢迎到一品唯客网平台交流讨论。我们平台上有很多优秀的SEO优化开发团队,他们有丰富的SEO优化开发经验,相信能为您提供优质的服务!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线