解决方案:day06.Hadoop快速入门&云服务三种模式IaaS

　　day06.Hadoop快速入门&云服务三种模式IaaS、PaaS和SaaS【大数据教程】

　　一、HADOOP背景介绍 1.1什么是HADOOP

　　1）。HADOOP是Apache下的开源软件平台。

　　2）。HADOOP提供的功能：利用服务器集群，根据用户自定义的业务逻辑对海量数据进行分布式处理

　　3）。HADOOP的核心组件是

　　A.HDFS（分布式文件系统）

　　B. YARN（计算资源调度系统）

　　C.MAPREDUCE（分布式计算编程框架）

　　4）。广义上讲，HADOOP通常指的是一个更广泛的概念——HADOOP生态系统

　　1.2 HADOOP生成背景

　　1). HADOOP起源于Nutch。

　　Nutch的设计目标是构建一个面向整个网络的大型搜索引擎，包括网络爬取、索引、查询等功能。然而，随着被抓取的网页数量的增加，遇到了一个严重的可扩展性问题——如何解决数十亿网页的存储和索引。的

　　2). Google 在 2003 年和 2004 年发表的两篇论文为这个问题提供了可行的解决方案。

　　——分布式文件系统（GFS），可用于处理海量网页的存储

　　——分布式计算框架MAPREDUCE可用于处理海量网页的索引计算问题。的

　　3). Nutch的开发者完成了HDFS和MAPREDUCE的相应开源实现，并从Nutch中分离出来成为一个独立的项目HADOOP。到2008年1月，HADOOP成为Apache的顶级项目，迎来了快速发展期。

　　1.3 HADOOP在大数据和云计算中的地位和关系

　　1). 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术与互联网技术融合发展的产物。借助IaaS（基础设施即服务）、PaaS（平台即服务）、SaaS（软件即服务）等商业模式，为终端用户提供强大的计算能力。的

　　2). 现阶段云计算的两大底层支撑技术是“虚拟化”和“大数据技术”

　　3). HADOOP是云计算PaaS层的解决方案之一。它不等同于PaaS，更不用说云计算本身了。的

　　1.4 *敏*感*词*HADOOP应用案例介绍

　　1).HADOOP应用于数据服务基础平台建设

　　2).HADOOP用于用户画像

　　3）。HADOOP用于网站点击流日志数据挖掘

　　1.5 国内HADOOP就业分析

　　1）。HADOOP整体就业情况

　　A. 大数据产业已纳入国家“十三五”规划

　　B. 各大城市都在开展智慧城市工程，智慧城市的基础是大数据综合平台

　　C. 互联网时代数据的种类和增长呈爆发式增长，各行各业越来越重视数据的价值

　　D. 与传统的JAVAEE技术领域相比，大数据领域的人才相对稀缺

　　E. 随着现代社会的发展，数据处理和数据挖掘的重要性只会越来越大。因此，大数据技术是一个仍在蓬勃发展、前景广阔的领域。

　　2）。HADOOP岗位要求

　　大数据是复合型专业，包括应用开发、软件平台、算法、数据挖掘等，因此大数据技术领域就业选择多样，但就HADOOP而言，以下技能或知识通常需要：

　　A. HADOOP分布式集群平台搭建

　　B. HADOOP分布式文件系统HDFS原理理解及使用

　　C. HADOOP分布式计算框架MAPREDUCE原理理解与编程

　　D. Hive数据仓库工具的熟练应用

　　E. 熟练使用Flume、sqoop、oozie等辅助工具

　　F. Shell/python等脚本语言开发能力

　　3）。HADOOP相关岗位薪酬水平

　　大数据技术或HADOOP的就业需求主要集中在北上广深一线城市，薪资普遍高于传统JAVAEE开发人员。以北京为例：

　　1.6 HADOOP生态系统及其组成部分介绍

　　各组件介绍

　　HADOOP（hdfs、MAPREDUCE、yarn）老牌大数据处理技术框架，擅长离线数据分析

　　Zookeeper分布式协调服务基础组件

　　Hbase 分布式海量数据库，离线分析在线业务通吃

　　Hive sql 数据仓库工具，简单易用，功能丰富，基于MR大延时

　　Sqoop 数据导入导出工具

　　Flume 数据

" target="_blank">采集框架

　　关键部件：

　　HDFS：分布式文件系统

　　MAPREDUCE：分布式计算程序开发框架

　　HIVE：基于大数据技术的SQL数据仓库工具（文件系统+计算框架）

　　HBASE：基于HADOOP的分布式海量数据库

　　ZOOKEEPER：分布式协调服务的基本组件

　　Mahout：基于mapreduce/spark/flink等分布式计算框架的机器学习算法库

　　Oozie：工作流调度框架

　　Sqoop：数据导入导出工具

　　Flume：日志数据采集

框架

　　2 分布式系统概述

　　注：由于大数据技术领域的各种技术框架基本都是分布式系统，所以了解hadoop、storm、spark等技术框架需要基本的分布式系统概念。

　　2.1 分布式软件系统 2.2 分布式软件系统示例：solrcloud

　　A. 一个solrcloud集群通常有多个solr服务器

　　B. 每个solr server节点负责存储整个索引库的若干分片（数据分片）

　　C. 每个分片都有多个服务器存储彼此的多个副本作为主要和备份

　　D. 索引创建和查询将在整个集群的每个节点上并发执行

　　E.solrcloud集群对外整体服务，内部细节对客户端透明

　　总结：利用多个节点协同完成一个或多个特定业务功能的系统就是分布式系统。

　　2.3 分布式应用系统仿真开发

　　需求：可以实现主节点向从节点发送计算任务，并在每个从节点上启动任务；

　　节目单：

　　AppMaster

　　AppSlave/APPSlaveThread

　　任务

　　程序运行逻辑流程：

　　3. 离线数据分析流程介绍

　　注：本环节主要感受数据分析系统的宏观概念和处理流程，初步了解hadoop等框架在其中的应用，不需要过多关注代码细节

　　一个被广泛使用的数据分析系统：“web日志数据挖掘”

　　3.1需求分析 3.1.1案例名称

　　《网站或APP点击流日志数据挖掘系统》。的

　　一般的中型网站（10W以上PV）每天会产生1G以上的网页日志文件。大型或超大型网站每小时可能产生 10G 的数据。的

　　具体如电子商务网站、网上团购业务等。每日PV数100w，独立IP数5w。用户通常在工作日上午10:00-12:00和下午15:00-18:00访问最多。白天主要通过PC端浏览器访问，休息日和晚上更多通过移动设备访问。网站搜索流量占整个网站的80%，只有不到1%的PC用户会消费，5%的手机用户会消费。的

　　对于这种规模的日志数据，使用HADOOP进行日志分析是最合适的。的

　　3.1.2案例需求说明

　　“网页点击流日志”收录

了网站运营非常重要的信息。通过日志分析，我们可以知道网站的访问量、访问量最多的网页、最有价值的网页、广告转化率、访问者来源信息、访问者终端信息等。

　　3.1.3 数据来源

　　本案例中的数据主要是通过用户的点击行为来记录

　　获取方式：在页面中预先嵌入一个js程序，为页面中需要监控的标签绑定事件。只要用户点击或移动到标签上，就可以向后台servlet程序触发ajax请求，并使用log4j记录事件信息，从而在web服务器（nginx、tomcat等）上形成不断增长的日志文件.). 的

　　形状像：

　　58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "" "Mozilla /5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

　　3.2数据处理流程3.2.1流程图分析

　　本案例与典型的BI系统非常相似，整体流程如下：

　　但由于本案例的前提是处理海量数据，所以流程中各个环节所用到的技术都与传统BI完全不同，后续课程将一一讲解：

　　1）数据采集：自定义开发采集程序，或使用开源框架FLUME

　　2) 数据预处理：定制开发的mapreduce程序运行在hadoop集群上

　　3）数据仓库技术：基于hadoop的Hive

　　4）数据导出：基于hadoop的sqoop数据导入导出工具

　　5）数据可视化：定制开发网页程序或使用kettle等产品

　　6）全流程的进程调度：hadoop生态中的oozie工具或者其他类似的开源产品

　　3.2.2项目技术架构图

　　的

　　3.2.3项目相关截图（感性知识，欣赏一下）

　　a) Mapreudce程序运行

　　b) 在Hive中查询数据

　　c) 将统计结果导入mysql

" />

　　./sqoop export --connect jdbc:mysql://localhost:3306/weblogdb --username root --password root --table t_display_xx --export-dir /user/hive/warehouse/uv/dt=2014-08- 03

　　3.3项目最终效果

　　经过一个完整的数据处理过程，会周期性输出各项统计指标的报表。在生产实践中，这些报表数据最终都需要以可视化的形式展现出来。在本案例中，使用了一个网页程序来实现数据可视化

　　效果如下：

　　4.集群搭建4.1 HADOOP集群搭建4.1.1集群介绍

　　HADOOP集群具体包括两个集群：HDFS集群和YARN集群，这两个集群在逻辑上是分开的，但在物理上往往在一起

　　HDFS集群：

　　负责海量数据的存储，集群中的主要角色是NameNode/DataNode

　　YARN集群：

　　负责海量数据运行时的资源调度，集群中的角色主要有ResourceManager/NodeManager

　　（那什么是mapreduce？其实就是一个应用开发包）

　　本集群搭建案例，以5个节点为例搭建，角色分配如下：

　　hdp-node-01 NameNode SecondaryNameNode

　　hdp-node-02 资源管理器

　　hdp-node-03 DataNode 节点管理器

　　hdp-node-04 DataNode 节点管理器

　　hdp-node-05 DataNode 节点管理器

　　部署图如下：

　　4.1.2 服务器准备

　　本案例使用虚拟机服务器搭建HADOOP集群，使用的软件及版本：

　　4.1.3 网络环境准备 4.1.4 服务器系统设置

　　配置ssh免密登录

　　配置防火墙

　　4.1.5 Jdk环境安装

　　4.1.6 HADOOP安装部署

　　最简化的配置如下：

　　vihadoop-env.sh

　　# 要使用的 java 实现。

　　导出 JAVA_HOME=/home/hadoop/apps/jdk1.7.0_51

　　vicore-site.xml

　　fs.defaultFS

　　hdfs://hdp-node-01:9000

　　hadoop.tmp.dir

　　/home/HADOOP/apps/hadoop-2.6.1/tmp

　　vihdfs-site.xml

　　dfs.namenode.name.dir

　　/home/hadoop/数据/名称

　　dfs.datanode.data.dir

　　/home/hadoop/数据/数据

　　dfs.复制

　　3个

　　dfs.secondary.http.address

　　hdp-节点-01:50090

　　vimapred-site.xml

　　mapreduce.framework.name

　　纱

　　viyarn-site.xml

　　yarn.resourcemanager.hostname

　　hadoop01

　　yarn.nodemanager.aux 服务

　　mapreduce_shuffle

　　视觉

　　hdp-节点-01

　　hdp-节点-02

　　hdp-节点-03

　　4.1.7启动集群

　　初始化HDFS

　　bin/hadoopnamenode-格式

　　启动HDFS

　　sbin/start-dfs.sh

　　启动纱线

　　sbin/start-yarn.sh

　　4.1.8测试 1. 上传文件到HDFS

　　在本地上传一个文本文件到hdfs的/wordcount/input目录下

　　[HADOOP@hdp-node-01 ~]$ HADOOP fs -mkdir -p /wordcount/输入

　　[HADOOP@hdp-node-01 ~]$ HADOOP fs -put /home/HADOOP/somewords.txt /wordcount/input

　　2.运行一个mapreduce程序

　　在HADOOP安装目录下，运行一个示例mr程序

　　cd $HADOOP_HOME/share/hadoop/mapreduce/

　　hadoop jar mapredcue-example-2.6.1.jar 字数/字数/输入/字数/输出

　　5集群使用初步5.1 HDFS使用

　　1）。查看集群状态

　　命令：hdfs dfsadmin –report

　　可以看出集群中有3个datanode可用

　　也可以打开web控制台查看HDFS集群信息，在浏览器中打开：50070/

　　2）。上传文件到HDFS

　　命令：hadoopfs –ls /

　　命令：hadoop fs -put ./scala-2.10.6.tgzto /

　　命令：hadoop fs -get /yarn-site.xml

　　5.2 MAPREDUCE的使用

　　mapreduce 是 Hadoop 中的分布式计算编程框架。只要遵循它的编程规范，只需要编写少量的业务逻辑代码，就可以实现强大的海量数据并发处理程序

　　5.2.1 Demo开发-wordcount

　　一、要求

　　从大量（如T级）文本文件中，统计每个词出现的总次数

　　2.mapreduce实现思路

　　地图阶段：

　　a) 从HDFS的源数据文件中逐行读取数据

　　b) 将每行数据分割成单词

　　c) 为每个词构造一个键值对 (word, 1)

　　d) 发送键值对以减少

　　减少阶段：

　　a) 接收map阶段输出的单词键值对

　　b) 将相同单词的键值对采集

到一个组中

　　c) 对每一组，遍历组内所有“值”，累加求和，即得到每个词出现的总次数

　　d) 输出（word，总次数）到HDFS中的一个文件

　　3.具体编码实现

　　(1)定义一个mapper类

　　//首先定义四种泛型

　　//keyin: LongWritable valuein: Text

　　//keyout: 文本 valueout:IntWritable

　　公共类 WordCountMapper 扩展映射器{

　　//map方法的生命周期：每传递一行数据，框架调用一次

　　//key : 该行起点在文件中的偏移量

　　//value：这一行的内容

　　@覆盖

　　protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

　　// 获取一行数据并转换为字符串

　　字符串行 = 值。toString();

　　//将这一行拆分成单独的单词

　　字符串 [] 单词 = 行。分裂（” ”）;

　　// 遍历数组，输出

　　对于（字符串词：词）{

" />

　　context.write(new Text(word), new IntWritable(1));

　　}

　　(2)定义一个reducer类

　　//生命周期：框架每传入一个kv组，就调用一次reduce方法

　　@覆盖

　　protected void reduce(Text key, Iterable values, Context context) 抛出 IOException, InterruptedException {

　　//定义一个计数器

　　整数计数 = 0；

　　//遍历这组kv的所有v并相加count

　　对于（IntWritable 值：值）{

　　计数 += 值。得到（）;

　　}

　　context.write(key, new IntWritable(count));

　　}

　　（3）定义一个主类来描述作业并提交作业

　　公共课 WordCountRunner {

　　//描述业务逻辑相关信息（哪个是mapper，哪个是reducer，要处理的数据在哪里，输出结果在哪里...）为job对象

　　//提交这个描述的作业到集群运行

　　public static void main(String[] args) 抛出异常 {

　　配置 conf = new Configuration();

　　工作 wcjob = 工作。获取实例（会议）；

　　//指定我的job所在的jar包

　　// wcjob.setJar("/home/hadoop/wordcount.jar");

　　wcjob.setJarByClass(WordCountRunner.class);

　　wcjob.setMapperClass(WordCountMapper.class);

　　wcjob.setReducerClass(WordCountReducer.class);

　　//设置我们业务逻辑Mapper类的输出key和value数据类型

　　wcjob.setMapOutputKeyClass(Text.class);

　　wcjob.setMapOutputValueClass(IntWritable.class);

　　//设置我们业务逻辑Reducer类的输出键值数据类型

　　wcjob.setOutputKeyClass(Text.class);

　　wcjob.setOutputValueClass(IntWritable.class);

　　//指定要处理的数据的位置

　　FileInputFormat.setInputPaths(wcjob, "hdfs://hdp-server01:9000/wordcount/data/big.txt");

　　//指定处理完成后保存结果的位置

　　FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://hdp-server01:9000/wordcount/output/"));

　　//提交作业到yarn集群

　　boolean res = wcjob.waitForCompletion(true);

　　System.exit(res?0:1);

　　}

　　5.2.2打包运行程序

　　1.打包程序

　　2.准备输入数据

　　vi/home/hadoop/test.txt

　　你好汤姆

　　你好吉姆

　　你好凯蒂

　　你好世界

　　凯蒂汤姆

　　在hdfs上创建输入数据文件夹：

　　hadoopfs mkdir -p /wordcount/input

　　上传words.txt到hdfs

　　hadoopfs –put /home/hadoop/words.txt /wordcount/input

　　3. 将程序jar包上传到集群任意一台服务器

　　4。使用命令启动执行wordcount程序jar包

　　$ hadoop jar wordcount.jar cn.itcast.bigdata.mrsimple.WordCountDriver /wordcount/input /wordcount/out

　　5.查看执行结果

　　$ hadoopfs –cat /wordcount/out/part-r-00000

　　扩展名：

　　云计算的三种服务模式：IaaS、PaaS和SaaS（公司通用的软件服务模式）

　　“云服务”现在几乎是家喻户晓的词。如果您不知道 PaaS、IaaS 和 SaaS 之间的区别，那也没关系，因为很多人真的不知道。

　　“云”实际上是互联网的隐喻，“云计算”实际上是利用互联网访问存储在远程服务器上或运行在远程服务器上的应用程序、数据或服务。

　　任何使用基于互联网的方式进行计算、存储和开发的公司，在技术上都可以称为云公司。然而，并非所有的云公司都是一样的。不是每个人都是CTO，所以有时候看到云技术背后的一些字眼会很头疼。的

　　云也是有层次的

　　任何在互联网上提供服务的公司都可以称为云计算公司。其实云计算分为好几层，即

　　基础设施在底部，平台在中间，软件在顶部。可以在这些层之上添加其他“软”层。的

　　IaaS：Infrastructure-as-a-Service（基础设施即服务）

　　第一层称为 IaaS，有时称为硬件即服务。几年前，如果你想在办公室或公司网站上运行一些企业应用程序，你需要购买服务器或其他昂贵的硬件来控制原生应用程序并保持你的业务运行。

　　但现在有了 IaaS，您可以将硬件外包到别处。IaaS 公司提供您可以租用的场外服务器、存储和网络硬件。节省维护成本和办公空间，公司可以利用硬件随时运行他们的应用程序。

　　一些大型 IaaS 公司包括亚马逊、微软、VMWare、Rackspace 和红帽。然而，这些公司各有特色。例如，Amazon 和 Microsoft 不仅为您提供 IaaS，它们还将计算能力出租给您。托管您的网站。的

　　PaaS：平台即服务（Platform as a Service）

　　第二层就是所谓的PaaS，有时也叫中间件。您公司的所有开发都可以在此级别完成，从而节省时间和资源。

　　PaaS 公司提供各种解决方案，用于在 Internet 上开发和分发应用程序，例如虚拟服务器和操作系统。这可以为您节省硬件费用，并使分散的工作室之间的协作变得更加容易。Web 应用程序管理、应用程序设计、应用程序托管、存储、安全和应用程序开发协作工具。

　　一些大型的 PaaS 提供商是 Google App Engine、Microsoft Azure、Heroku、Engine Yard。最近的初创公司包括 AppFog、Mendix 和 Standing Cloud

　　SaaS：软件即服务（Software as a Service）

　　第三层也叫SaaS。该层是每天与您的生活接触的层，主要通过网络浏览器访问。远程服务器上的任何应用程序都可以通过网络运行，这就是SaaS。

　　您使用的这些服务完全来自网络，例如 Netflix、MOG、Google Apps、Dropbox 或 Apple 的 iCloud。尽管这些网络服务用于商业和娱乐或两者兼而有之，但这也是云技术的一部分。

　　一些面向企业的 SaaS 应用程序包括 Citrix 的 GoToMeeting、Cisco 的 WebEx、Salesforce 的 CRM、ADP、Workday 和 SuccessFactors。的

　　Iaas与PaaS的比较

　　PaaS的主要功能是将开发运营平台作为服务提供给用户，而IaaS的主要功能是将虚拟机或其他资源作为服务提供给用户。接下来将从七个方面对PaaS和IaaS进行比较：

　　1）开发环境：PaaS基本上会为开发者提供包括IDE在内的一整套开发和测试环境，而IaaS用户主要使用之前熟悉的开发环境，但是由于之前的开发环境在与集成云比较欠缺，用起来不是很方便。

　　2）支持的应用：由于IaaS主要提供虚拟机，而普通的虚拟机可以支持多种操作系统，所以IaaS支持的应用范围非常广泛。但是要让一个应用程序运行在某个PaaS平台上并不是一件容易的事，因为不仅要保证应用程序是基于平台支持的语言，还要保证应用程序只能调用平台支持的API，如果应用调用了平台不支持的API，则需要修改应用。

　　3）开放标准：虽然很多IaaS平台都有一定的私有功能，但由于OVF等协议的存在，IaaS在跨平台和避免被供应商锁定方面正在稳步推进。PaaS平台的情况不容乐观，因为Google的App Engine和Salesforce都有一定的私有API。

　　4）可扩展性：PaaS平台会自动调整资源，帮助其上运行的应用更好地应对突发流量。IaaS平台需要开发者手动调整资源来应对。

　　5）整合率和经济性：PaaS平台的整合率非常高。比如PaaS的代表谷歌App Engine，一台服务器上可以承载上千个应用，而普通IaaS平台的集成率顶多也没有多少。它会超过 100，一般在 10 左右，这使得 IaaS 不如 PaaS 经济。

　　6）计费和监管：因为PaaS平台的计费和监管不仅是IaaS平台可以达到的操作系统层面，比如CPU和内存的使用，还有应用层面，比如应用程序的响应时间（Response Time）或应用程序消耗的交易数量等，这将提高计费和管理的准确性。

　　7）学习难度：由于在IaaS上开发和管理应用与现有方法比较相似，而在PaaS上开发可能需要学习一门新的语言或新的框架，因此IaaS的学习难度较小。的

　　平台即服务

　　基础设施即服务

　　开发环境

　　完全的

　　普通的

　　支持的应用程序

　　有限的

　　宽的

　　*敏*感*词*性

　　不足

　　稍微好一些

　　可扩展性

　　自动缩放

　　手动伸缩

　　合并比率和经济学

　　集成度高，更经济

　　整合率低

　　计费和监管

　　美好的

　　简单的

　　学习困难

　　有点困难

　　低的

　　表 1. PaaS 和 IaaS 之间的比较

　　未来PK

　　在如今的云计算环境中，IaaS是非常主流的，无论是Amazon EC2、Linode还是Joyent等，都占有一席之地，但是随着Google的App Engine、Salesforce或者微软的Windows Azure等PaaS平台的推出，使得PaaS 也开始出现。谈到两者的未来，尤其是两者之间的竞争关系，我个人认为短期内，由于IaaS模式在支持应用和学习难度方面的优势，IaaS将在短期内学期。但从长远来看，由于PaaS模式集成度高带来的经济性，如果PaaS能够解决通用性和支持应用等挑战，将取代IaaS成为开发平台。读者的“新宠”。的

　　解决方案:关于提升用户数据一致性的方法讨论

　　并根据审核规则实施批量审核，差异数据二次实时审核，根据实时审核结果自动下发修复指令，修复后复测一致性结果，投诉关联智能跟踪修复。关键词：用户数据；数据分析; 资料审核；数据修复；投诉协会 CLC 编号：TP274。

　　因此，业务支撑中心和网络运营中心组成一个虚拟的团队，共同努力提高用户数据的一致性。本文结合用户数据一致性提升专项优化工作，从细化审计规则、严控审计流程、复检修复结果、相关投诉处理等方面入手，安全、精准、智能地管控全流程。用户数据审核修复。1 用户数据不一致的原因分析。CRM与现网网元之间的数据是多对多的网络对应关系。随着相关业务的增多，CRM与网元的交互过程和逻辑也越来越复杂，容易造成网络公司（网元和业务支撑系统）之间的数据不一致。1.1 多种原因导致的网络行业数据不一致 1.1.1 机制缺陷现有网络部分业务规则设计不合理，管理机制不完善： (1) 业务规则不对称：如部分服务在支撑侧立即生效，在网元上立即生效。 (2)后台开启业务：从业务平台侧或接口层手动开启业务；（三）运营异常：割接作业不规范或业务梳理不够彻底。1.1.2 异步交互业务平台上有很多烟囱，系统间采用异步交互的方式： (1)支持系统异常：在下单或取消业务时，平台未能成功发送指令；(2) *敏*感*词*平台异常：*敏*感*词*平台没有执行支持系统发送的命令或者反向命令没有成功发送给支持系统；(3)相关配置错误：系统参数和产品配置错误。

　　1.2 修复难互联网行业数据一致性恢复难的原因有很多：（1）规则难以梳理和维护：业务融合关联，规则复杂，相应的审计和修复规则难以梳理；产品频繁上线下线，需要调整相应的审核修复口径；(2) 数据修复风险高：不同系统之间数据提取时间的一致性难以保证，用户在数据提取到审计结果期间可能发生业务变更，结果直接根据结果进行修复对批量审核结果数据，可以“修正正确的数据”；(3) 人工加工困难：由于业务种类繁多，各系统提供的数据格式差异很大，如果人工处理，效率低，效果不好。2 整体架构构建虚拟团队，以安全、准确、智能的用户数据一致性修复为目标 DOI: 10.19850/ki。数据管理平台”。平台总体架构如图1所示。 3 梳理用户数据审计规则根据网元侧用户全量数据备份文件和SOAP命令实时查询结果，四种类型梳理出用户基本数据（手机号码、IMSI、上网功能、关机开机）和6类VoLTE网元数据。16类业务数据（彩铃、来电显示、呼叫转移、“呼叫至死”的保护，

" />

　　4 通过平台实现智能化 4.1 数据

" target="_blank">采集通过FTP、SFTP、数据表采集网元数据和业务数据。支持固定分隔符分隔的文本文件，主要针对业务平台数据（彩铃、宽带、来电提醒、专线、彩印、VPMN数据等）；支持华标HSS全量数据和VOLTEAS透明数据的.gz格式，自动解压处理；支持跨库数据同步，设置源库和目标库，CRM多采用按月或按地区分表的模式，平台表名支持通配符模式，降低配置复杂度。平台可灵活配置采集开始时间点、采集路径、用户名、密码等关键字，并根据网元侧备份文件的生成时间采集文件名，实现自动采集并保存到相应路径。4.2 本地采集数据分析文件后，根据配置自动分析入库。需要解析的字段个数、存储表的名称、定界符采集

文件的定界符。分析规则库文件接口已打开（实时接口）审计规则库数据映射规则用户数据差异数据错误数据多源数据采集数据分析一致性审计规则自适应智能预警批量审计、二次审计、实时审计应用规则数据接口数据源网元业务平台BOSS CRM总部平台图1异构网元智能数据管控平台可按需配置；配置HSS全量文件和VOLTEAS透明文件，提取所需业务数据进行分析存储，后台进程对数据进行清洗、正则化、格式化，降低批量审计工作难度。

　　举例如下：VOLTEAS透明数据格式复杂，业务数据以“键值对+XML消息”的格式存储，平台采用键值解析，通过XPATH匹配XML消息，提高配置的灵活性和准确性。图2是解析用户152XXXX6523的VOLTEAS透传数据后的结果。图2 用户152XXXX6523 平台分析数据 4.3 批量审计数据分析入库后，根据审计规则进行批量审计。批量审计首先根据抽取规则抽取CRM和网元数据，然后根据审计规则对差异数据进行审计。用户152XXXX6523在CRM中处于双停状态，网元上的语音和短信被屏蔽，2/3/4G上网功能不被屏蔽。批次审核后的结果如图3所示，CRM双停调用者和被调用块批次差异类型2/3/4G未被拦截点之间会有误差，批次审核的数据结果只能作为初步参考，无法直接用该数据进行修复，因此平台将对差异数据进行二次审核，以确保修复的准确性。二次审计以单号为索引，同时查询网元状态数据和CRM状态数据，保证数据查询的时间点误差保持在毫秒级。CRM双停主叫和被叫分块批次差异类型2/3/4G未分块点之间会有误差，分批审核的数据结果只能作为初步参考，不能直接用此数据修复，因此平台会对差异数据进行二次审核，确保修复的准确性。二次审计以单号为索引，同时查询网元状态数据和CRM状态数据，保证数据查询的时间点误差保持在毫秒级。CRM双停主叫和被叫分块批次差异类型2/3/4G未分块点之间会有误差，分批审核的数据结果只能作为初步参考，不能直接用此数据修复，因此平台会对差异数据进行二次审核，确保修复的准确性。二次审计以单号为索引，同时查询网元状态数据和CRM状态数据，保证数据查询的时间点误差保持在毫秒级。

　　二次审计为实时审计，需要配置CRM动态查询语句和网元动态查询命令，从结果中提取关键数据，再通过实时审计规则判断是否属于差异数据。张艳曼等：提高用户数据一致性的方法探讨第8期现代信息化22 2021.4用户152XXXX6523实时分析结果如图4所示图4用户152XXXX6523的二次审核结果4.5数据修复修复前，再次进行实时审核，审核一项，修复一项，根据审核结果和匹配数据规则下发相关修复说明。用户152XXXX6523的审计结果是语音停止但是2/3/4G上网没有停止，

" />

　　修复后用户152XXXX6523的前端查询结果如图5所示，可以看到修复后锁状态全部变为TRUE，与CRM中的状态2（双停）一致。图5 用户152XXXX6523 维修后的前端查询结果 4.7 投诉协会通过智能手段跟踪维修结果，确保用户使用。平台对接一级客服系统，按小时获取在线公司受理的投诉工单，自动匹配报修用户与投诉用户。当投诉比例超过设定的阈值时，发出告警，并进行人工校验，确认数据修复是否正确。5 本方法的改进安全准确修复保证：（一）修复数据通过多重验证。采用“批量审核+二次实时审核+修复验证”等全方位管控模式，实现自动化“可修可改”的目标，将对用户的影响降到最低；(2)判断是否自动修复。根据不同的业务，对审计差异数据设置不同的阈值。当差异数超过阈值时，将暂停自动修复并发出告警。人工确认是否需要修复，减少因业务规则变更导致审计结果不准确导致的数据修复错误；(3)修复数据可以恢复。根据修复前的备份数据和数据修复工单，可以将用户数据恢复到修复前的状态。智能数据关联：（1）用户数据的纵向和横向关联。CRM与现网网元之间的数据是多对多的网络对应关系。平台将各网元的数据与业务平台的数据进行整合，通过业务逻辑和用户类型分类正确的用户业务数据实现方式。，将用户业务数据应有的业务要素统一展示在网元和CRM上，采用“配置说明+动态帮助”的方式进行辅助。平台将各网元的数据与业务平台的数据进行整合，通过业务逻辑和用户类型分类正确的用户业务数据实现方式。，将用户业务数据应有的业务要素统一展示在网元和CRM上，采用“配置说明+动态帮助”的方式进行辅助。平台将各网元的数据与业务平台的数据进行整合，通过业务逻辑和用户类型分类正确的用户业务数据实现方式。，将用户业务数据应有的业务要素统一展示在网元和CRM上，采用“配置说明+动态帮助”的方式进行辅助。

　　同时，在修复业务时，会联合审核修复与其相关、依赖、互斥的业务；(2) 设置白名单用户。审核差异数据自动修复时，智能过滤白名单用户并发出告警，人工判断是否修复，避免特8期23 2021.4业务和号码的例行修复；(3) 开启流控功能，避免数据查询、修复影响正常业务。一致性平台产生的每个工单在插入到统一开放的接口表之前，会查询接口表中未处理的工单数量，超过设定的阈值时暂停操作，避免造成工单积压; (4) 灵活的自适应责任：平台可根据产品的上线和下线自动调整审核规则，适应业务产品的发展需要。完善的跟踪处理：（1）投诉与跟踪修复结果相关。数据报修完成后，可通过集中平台数据关联用户投诉信息，查询报修用户是否有与报修操作相关的投诉，如有则平台自动报警。及时发现因维修引起的用户投诉，迅速启动应急措施，避免用户投诉批量化；(2) 可识别数据一致性工单。对数据一致性平台生成的查询和修复工单进行备注，以便在数据统计、投诉、故障核查时进行区分。6 用户数据一致性提升效果检验 6.1 百万级报修数据平台现已收录11个城市23类业务212个场景（配置采集规则137条，批量审核规则1260条，实时审核规则219条，实时190条） -实时分析规则、198条实时修复规则、123条业务关联规则、15条特殊过滤规则），实现日常自动审计和自动修复。

　　截至目前，已修复存储数据约492万条，涉及用户约487万。6.2 一致性投诉明显减少平台有效运行并开始自动进行用户数据一致性审计和修复后，2021年2月以来涉及数据一致性的投诉明显下降，投诉占比下降3.5%，大幅改善用户感知和满意度。6.3 通过用户数据一致性恢复了颗粒存储的收益保障。截至2021年4月，错单量（主要是流量业务）从去年同期的148万户下降到23万户，错单用户数从8217户下降到1619户，恢复正常大约 3。年收入损失9600万元（（8 217-1 619）×50×12=3 958 800）。7 结论用户数据在CRM与网元之间、网元之间必须保持一致。这是保证用户服务正常使用和服务计费正确的基础。这篇文章的目的是通过提高用户数据的一致性，减少用户投诉，稳定用户基础，保证运营商的正常运营收入。优化员工参考。参考文献： [1]张立成，杨经纬，楚瑶等．论业务支撑系统中数据一致性的保障机制[J]．通信世界，2015（23）：2-4．[2] 李斌... 这是保证用户服务正常使用和服务计费正确的基础。这篇文章的目的是通过提高用户数据的一致性，减少用户投诉，稳定用户基础，保证运营商的正常运营收入。优化员工推荐。参考文献： [1]张立成，杨经纬，楚瑶等．论业务支撑系统中数据一致性的保障机制[J]．通信世界，2015（23）：2-4．[2] 李斌... 这是保证用户服务正常使用和服务计费正确的基础。这篇文章的目的是通过提高用户数据的一致性，减少用户投诉，稳定用户基础，保证运营商的正常运营收入。优化员工参考。参考文献： [1]张立成，杨经纬，楚瑶等．论业务支撑系统中数据一致性的保障机制[J]．通信世界，2015（23）：2-4．[2] 李斌... 2015（23）：2-4。[2] 李斌... 2015（23）：2-4。[2] 李斌...

AI时代内容工厂

解决方案:day06.Hadoop快速入门&云服务三种模式IaaS

0 个评论

发起人