解决方案:百分点苏海波：深度迁移学习在NLP中的应用及实践

　　深度迁移学习无疑是当前NLP领域的主流技术，在越来越多的实际应用场景中取得了骄人的成绩。那么，如何更好地应用这项技术来解决样本小、算力不足的问题呢？如何在各种技术流派的碰撞中找到最优解？

　　事实上，Percent在NLP方面拥有多年的技术和业务实践经验，服务过上百家企业和政府客户，成功采用深度迁移学习技术解决各行业客户的NLP现实业务问题。

　　11月21日，AICon全球人工智能与机器学习大会首日在北京国际会议中心开幕，百分比首席算法科学家苏海波受邀参会，与大家分享AI最佳实践*敏*感*词*名人，深入剖析模型。技术原理、谷歌TPU使用经验、模型调参和数据增强等优化技巧，同时分享深度迁移学习模型在智能问答、增强分析、情感等各类NLP任务中的应用实践和价值分析。

　　以下为演讲实录：

　　突破深度学习困境

　　大家都知道Algphago在围棋上打败了人类，但它还是有明显的缺陷，不能像人类一样举一反三。它针对的是 19*19 的板子。如果换成21*21的棋盘，Alphago马上就失败了，不过人类可以举一反三。

　　以骑自行车为例。如果你学骑自行车，你会在学*敏*感*词*时借鉴骑自行车的经验，大大加快*敏*感*词*的学习速度。这种迁移学习的能力对人类学习新事物起着非常重要的作用。关键作用。

　　AI界大神吴恩达曾说过：迁移学习将是继监督学习之后未来五年内最有可能实现商业化的AI技术。那么，什么是迁移学习？迁移学习是指利用数据、任务或模型之间的相似性，将在旧领域学习的模型应用到新领域的学习过程。

　　之所以需要迁移学习是为了解决以下四个问题：

　　1、深度学习与标注少的矛盾：目前深度学习只能在标注数据充足的场景下发挥威力。但是在很多实际问题中，我们没有足够的标注数据，这时候就需要迁移学习；

　　2、算力强与资源弱的矛盾：某些海量数据模型训练任务需要非常大的算力，只有大公司才能负担得起，而普通人的机器资源非常有限。使他们也能够利用数据和模型；

　　3、通用模型与个体需求的矛盾：通用模型可以解决大部分公共问题，但具体的个体需求有其独特性，通用模型根本无法满足。因此，有必要对这种通用模型进行改造和适配，以更好地服务于各种个性化需求；

　　4. 对特定应用的要求：现实世界中的一些特定应用，比如个性化推荐，存在用户数据冷启动的问题，因此可以通过迁移学习来迁移相似领域的知识。

　　迁移学习方法可以分为四类，包括基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法和基于关系的迁移学习方法。

　　今天给大家分享的是基于模型的迁移方法，就是构建一个源域和目标域参数共享的模型，比如图中的Chihuahua判别模型和shepherd判别模型，在模型中有没有脚有没有眼睛的部分可以分享。

　　基于模型的迁移学习方法：从图像到 NLP

　　基于模型的迁移方法特别适用于深度神经网络，因为神经网络的结构可以直接迁移，我们称之为深度迁移学习。早期，这种方法被应用于计算机视觉中的图像识别。源域中学习到的低级特征具有普适性，包括边缘特征、形状特征等，从而可以在源域中预训练整个模型，并将低级通用特征迁移到目标域可以显着提高相应模型的学习效果。

　　2018年，随着Google BERT的出现，这种预训练模型方法开始应用于NLP领域，对NLP领域产生了革命性的影响。如果学习词向量就像学习计算机视觉中的图像边缘，那么 NLP 中的预训练模型就像学习图像特征的完整层次结构，从边缘到形状再到高级语义概念。

　　上图展示了深度迁移学习在NLP中的技术思路。首先，通过源域中已有的海量语料库，以无监督的方式训练一个语言模型，即预训练模型。然后在具体目标任务中，迁移预训练模型，在其上连接一层全连接网络或深度网络（如CNN、LSTM、DenseNet、HighWayLSTM等），结合标注样本训练当前任务的模型这种方法与深度学习模型相比，所需的样本数量可以大大减少。

　　百分比最佳实践：底层效率提升+三大场景应用

　　Percent在各种NLP任务中广泛使用BERT技术，并不断优化改进，包括使用谷歌TPU解决算力瓶颈，使用BERT与上层神经网络联合调参，使用各种扩展模型等BERT在效果提升和数据增强方面进行探索和实践。

　　Percent Cognitive Intelligence 业务技术框架图

　　Percent Cognitive Intelligence业务的技术框架。除了CPU和GPU，底层硬件资源也会租用谷歌的TPU。机器学习平台从传统的机器学习和深度学习逐渐转向目前主流的深度迁移学习；核心认知智能技术层包括自然语言处理、知识图谱和智能交互。智能交互分为问答式问答、任务式问答、阅读理解和NL2SQL；行业内典型的认知智能应用包括*敏*感*词*法智能检察问答系统、快速零售智能业务态势分析系统、*敏*感*词*智能翻译系统、

　　接下来围绕架构图中红色标注的技术点和应用进行展开。

　　首先是谷歌TPU的做法

　　在预训练语言模型的时候，我们会采集

大量的语料（包括维基百科、百度百科、微博、微信等，大约几十G），训练一个通用的预训练模型，但是base版本的BERT 模型有 1.5 亿个参数，而大版本超过 3 亿，微调和重新预训练所需的计算能力太高。

　　另外，我们在基于预训练模型进行实际的NLP开发时，会同时有多个任务。如果我们串行执行，则需要等待很多时间；如果并行的话，会消耗太多的算力，硬件成本负担不起。. 因此，如何探索出一种高效、低成本的研发模式，将是NLP算法研究人员和工程师共同面临的问题。结合我们的实践经验，使用谷歌的TPU资源是解决方案之一。TPU的运算速度是GPU的80多倍。

　　下面以租用一个TPU V2 八核为例，系统的讲解一下如何创建虚拟机实例和TPU实例。首先进入谷歌云的首页：

　　然后需要创建一个VM实例，在options中配置显存、内存量、系统镜像等。

" />

　　接下来，创建一个 TPU。有几个选项值得注意。在TPUtype项中，会有v2-8、v3-8、v3-32等选项的说明，其中v2或v3是tpu的型号，-8或-32是核心数，最小核心数为8个核心。

　　我们使用TPU V2-8进行计算，并在计算时间和成本上与主流GPU进行对比，使用TPU和GPU对BERT模型进行500K步的训练。如图所示，使用GPU训练大约需要7天，而使用TPU训练完成只需要1.2天。同时，总成本也大大降低。可以看出，TPU在BERT预训练模型的计算时间和总成本上已经完全超越了目前主流的GPU。

　　然后我们使用 TPU 作为硬件加速方式，在 BERT 模型上进行十轮小时。这项技术极大地提高了NLP领域的fine-tune。通过与目前主流GPU Tesla V100*8对比发现，TPU完成fine-tune只需要10分钟左右，而GPU完成同样的fine-tune需要不止一个神经网络计算效率，并且从总成本来看，使用TPU的成本仅为GPU的3.5%左右。

　　因此，TPU超高的效率和低廉的价格让神经网络计算更加“亲民”。TPU可以从根本上解决对算力要求高但资金不足的中小企业的顾虑。过去几天需要几十个 GPU。BERT的预训练现在一个TPU一天就可以轻松搞定，让所有的中小企业都拥有了之前所缺乏的强大算力。尽管 TPU 在很多方面都打败了 GPU，但我们认为 TPU 仍有很大的改进空间：

　　1、TPU的代码示例和文档很少，使用门槛很高；

　　2. TPU是围绕Tensorflow框架设计的硬件。使用其他人工智能框架的项目很难高效低成本地使用TPU进行计算；

　　3、TPU在checkpoint读写上效率低下，导致在计算小模型时效率上没有明显优势。

　　情感分类实践

　　情感分类是Percent智能消费者洞察分析系统的核心功能。基于电商、微信、微博、论坛等数据，系统进行各种文本语义分析（包括情感分析、热点分析等），最终支持口碑分析、趋势分析、用户体验分析和其他申请决定。目前，该产品已服务于众多快消行业的标杆客户。

　　需要注意的是，情感分类分为短文本和长文本，因为BERT模型对输入文本有长度限制，不能超过512个词。

　　对于短文本情感分类，在BERT预训练模型出现之前，我们使用的是卷积神经网络（CNN）模型，先应用于图像，后应用于文本情感分析。CNN主要由输入层、卷积层、池化层和全连接层组成。卷积的计算方式是对相邻区域的元素进行加权求和，与位置无关。实现了权重参数的共享，池化层实现了空间采样，这些方法大大减少了神经网络的参数，避免了模型过拟合。

　　对于短文本的情感分类任务，BERT模型在文本前面插入了一个[CLS]符号，将该符号对应的输出向量作为该文本的语义表示进行情感分类，因为它不同于其他文字中已有的词。相比之下，这种没有语义信息的符号会更“公平”地融合文本中每个词的语义信息。

　　以上分别是BERT和CNN的实验结果。可以看出，随着训练数据的增加，两种模型的情感分类准确率都在不断提高。不过，两者的反差也很明显。当BERT模型只有1000个训练集时，预测准确率达到90%。当CNN模型有10万个训练集样本时，预测准确率仅为88.2%。这表明深度迁移学习模型所需的标记样本数量远小于以往的深度学习模型，能够取得更好的效果。

　　由于BERT模型的输入文本有512个字符的限制，短文本分类比较简单，直接输入BERT模型即可。但是对于长文本，如何使用BERT模型呢？如果直接截取前面的512个字符，会有信息丢失。我们的解决方案是对长文本进行平均截断，比如按照平均6段截断，分成几段短文本，然后输入对应的BERT模型或者各种变体，比如RoBERT、Xlnet等，然后将输出的增强语义向量进行拼接，然后连接到GRU模型。

　　我们对标记数据集执行 5 折分割，并交叉验证平均截断策略的效果。上图实验结果表明，RoBERTa+平均截断训练生成的模型F1值高于RoBERTa版本模型，说明在长文本情感分类中，平均截断策略可以有效提升效果预训练模型。

　　此外，我们还采用了post train的方式来提升模型的效果。实验结果表明，在每条数据上，RoBERTa+ Post train 组合的 F1 和 Acc 均高于 RoBERTa 版本的模型。因此，在长文本情感分类中，Post train策略可以有效提升预训练模型的效果。

　　智能问答实践

　　下面是百分位数预训练模型在智能问答中的实践。

　　我们开发了智能检察问答系统，解决了老百姓的普法难题。为广大群众日常生活中遇到的法律问题提供智能解答，改善民生体验。该系统荣获“2019年度全国政法智能建设优秀创新产品”奖。系统的核心是问题的等价语义识别，因为同一个问题可以有多种表达方式，例如“18岁以下抢劫是否*敏*感*词*”、“18岁以下抢劫是否*敏*感*词*” 18”表示相同的意思。

　　那么如何找到语义等价问题呢？传统的相似度搜索算法（包括余弦相似度、编辑距离、关键词巧合、BM25）可以发挥作用，但仍然不够，比如“什么是公益诉讼？” 和“什么是行政诉讼？” 编辑距离为2，不等价于“什么是公益诉讼？”的编辑距离和“解释公益诉讼的定义？” 为7，但它们是等价的，所以需要增加等价模块的判断。

　　等价判断中存在两个典型问题：字面相似的句子语义不等价，字面不同的句子语义等价。我们只是举了两个例子。为了在这两个问题上取得好的效果，我们的经验是一方面优化模型，将深度学习改为深度迁移学习模型，通过人工标注+数据增强的方式增加训练。数据。

　　在具体模型方面，我们基于BERT和BIMPM开发了一种新的语义等价模型。在BIMPM模型的基础上，我们进行了两方面的改造。一方面，我们去掉了原来BIMPM模型中连接词向量层的Bi-LSTM模型。原因是LSTM没有设计机制保证梯度反向传导到深度模型。. 另一方面，将 BIMPM 顶部的 Bi-LSTM 模型替换为 Transformer 模型。主要原因是Bi-LSTM可以捕捉到数据中的序列特征。但是由于BIMPM采用了多重匹配，序列性不强，所以Transformer更适合这个模型。

　　Percent 提出的问句级匹配模型在公开的 Quora 数据集中达到了当前最先进的水平。该数据集包括超过400,000个问题组，专门用于研究两个句子在语义上是否等价的二元问题。. 由于该数据集的标注质量很高，常被用来测试语义理解的模型效果。我们按照7:2:1的比例分配训练集、验证集和测试集。在测试集上的具体实验结果如下：

　　作为对比，我们第一个结果是BERT单模型的结果，第二个和第三个分别是BERT和ABCNN、BERT和BIMPM的结果。在特征提取的深度方面，我们选择了BERT预训练模型的表面层一、表面二层和表面三层。

　　如上表结果所示，BERT和BIMPM的结合已经超越了BERT单一模型。在我们的新模型中增加 BERT 的特征层数可以提高几个点的性能。随着层数的增加，可以获得更高的F1值和准确率。当层数为3时，准确率为90.52%，F1值为89.68%，达到state-of-the-art效果。

　　为了保证实验结论的有效性，除了Quora数据集外，我们还使用了SLNI数据集中收录

句子对等的子数据集，该子数据集收录

550,000个训练集和10,000个测试集。许多论文使用这些数据来测试他们的模型包的效果。与这些模型相比，我们的准确率提高了近两个点，达到了当前最先进的水平。具体实验结果如上图所示。.

　　我们比较了基于 BERT 的新模型和传统 CNN 模型在问题等价性上的识别效果。随着训练数据集的增加，两者的效果都在逐渐提升。BERT模型在训练集为5000时，可以识别出CNN模型的准确率达到77%，而CNN模型在训练集为50000时，识别准确率约为75.5%。好结果。

" />

　　除了模型的改进，我们结合数据增强技术，进一步提高问题语义对等的识别效果。什么是数据增强？

　　数据扩充可以简单理解为从少量数据生成大量数据的过程。一般来说，一个比较成功的神经网络都有大量的参数。要使这些参数正确工作，需要大量数据进行训练，但在实际情况下，并没有那么多数据，因此需要进行数据增强，可以提高模型的泛化能力和鲁棒性。性别。图像识别中的数据增强方法包括翻转、旋转、缩放等。文本中的数据增强包括切分句子、增删词、构造新句子，或者用同义词替换句子，或者根据模板替换句子等等。

　　优化相当于问句的模型后，可以通过加入标注数据来提升效果。那么，需要添加什么样的标签数据才能达到好的效果呢？

　　我们把整个大问题分解成几个子问题，表中列出了一些主要的子问题。在规律不改变意义的前提下是等价的；对于库里的问题，有很多词与问的问题重叠，但语义并不等同。

　　第一种数据增强方法是无意义词和关键词的添加和修改，包括添加无意义词进行等价，将关键词替换为同义词，将关键词替换为非同义词后不等价。

　　第二种数据增强方法是改变问法后的语义对等，通过构造一个等值的问句模板，比如名词短语+有效的各种说法，动词短语+各种非法的说法等，将相同或等价的句子元素组合起来使用不同的模板，例如“请问，杀死儿童是否构成*敏*感*词*？” 和“请问，杀孩子犯法吗？” 这两个问题是模板和同义词增强生成的等价问题。

　　第三种数据增强，加修饰语后语义不等，删掉修饰语后的句子依然流畅。这里我们使用依存语法的技术来分析句子中所有单词的主从关系。

　　通过依存句法分析，分析句子的核心关系、主谓关系、谓宾关系、陈述关系、决定关系等。“court”与“made”的关系是主谓关系，“made”与“judgment”的关系是谓宾关系，“those”与“situation”的关系是决心。

　　根据依存句法的分析结果，我们可以删除句子中的修饰语，以保证删除后的句子依然顺畅，如删除“those”或“those situations”。

　　此外，在很多重叠词的情况下，我们替换依赖句法树的子树。替换后语义不等价，但依然流畅。如何处理请求”。

　　通过这些方法，我们生成了大量的增广样本并重新训练模型，效果得到了显着提升。例如，在用非同义词替换库里问题关键词的情况下，准确率从65%提高到91%；在 Curry question 添加不等语义修饰语的情况下，准确率从 63% 提高到 91% 。

　　增强分析实践

　　接下来介绍深度迁移学习在增强分析中的实践。

　　首先，什么是增强分析？增强分析是指基于机器学习的数据分析和BI功能，包括智能数据发现、增强数据准备、增强数据分析等模块。目前，增强分析在BI中得到了广泛的应用。Gartner认为，到2020年，增强分析将成为新用户购买BI产品和数据分析平台的主要驱动力。Percent开发了一套增强型分析产品——智能业务分析系统，简称Clever BI。

　　智能问答功能是Clever BI中一个非常重要的子任务。其目的是让用户通过一句自然语言自动生成相应的图表。比如你问“我知道这些省份的投诉比较多，是哪个渠道影响了客户体验？” 系统会自动显示相应的图表结果。在学术界，这个任务被称为NL2SQL，并且已经有很多关于它的研究。

　　Clever BI的系统架构包括数据管理层、算法支撑层、功能模块层和API层。核心功能是智能推荐、智能问答和智能挖掘。接下来重点介绍智能问答，这是NL2SQL的实现原理。

　　首先对输入的问句进行分词和依存句法分析，然后需要填充语义槽，通过模型分析查询字段、聚合函数、过滤条件、分组字段，最后得到对应的生成 SQL 语句。

　　将自然语言转换成 SQL 本身可以看作是一个 Seq2seq 任务。目前主流的方法是预先写好SQL的模板槽，然后用多个模型一个一个预测槽。X-SQL模型是其中的代表方法之一。，其过程是通过MT-DNN对原创

问题和字段名称进行编码。MT-DNN是微软推出的针对多任务联合学习的BERT优化方案。输出层包括6个子模型：S-COL和S-AGG。预测select字段，W-NUM用于预测where条件的个数，W-COL、W-OP、W-VAL用于预测过滤条件的具体内容。这个架构已经很完善了，但是由于数据限制，模型无法预测多选多组的内容。

　　百分点提出了一种结合X-SQL和依赖语法树的方法来解决这个问题。X-SQL从深层语义的角度抽取元素，而句法分析则从问题的语法结构抽取。举一个实际的例子，分析“每个区域的新订单总数”，第一步是分词，第二步是依存句法分析，可以得到一棵树，包括词性、实体类别、结果标签和依赖关系。第三步，通过词库和后序遍历分析依赖树，分析查询字段、聚合函数和分组字段。例如“新订单数量”通过X-SQL被识别为查询词，“地区” 通过依赖关系识别出来是一个分组字段，最后生成对应的SQL语句。另外，在具体使用过程中，经常会出现比较复杂的时间题。比如“上个月”、“将近7天”等等，这些问题比较固定，但是解析的时候需要很多知识。我们使用模板来处理它们。模板由普通字符和正则语法组成。

　　实际测试中，由于中文NL2SQL领域没有统一的数据集，通过采集

用户在Clever BI产品中的实际使用数据，选取了250条中文测试数据（题目可能包括分组、过滤条件、复杂时间等）表达式、查询内容和排序等），并在此基础上进行测试，得到的结果如上图所示。与X-SQL模型相比，改进的百分点算法有明显的效果提升。在实际测试中，准确率达到了90.45%，并且在实际使用中，已经达到了商用效果。

　　综上所述，在过去的一年里，随着谷歌BERT模型的出现，给自然语言处理带来了长足的进步。深度迁移学习已经成为未来NLP的主流技术。在现有研发成果的基础上，TPU、数据增强、BERT模型改进、上层网络设计等技术将进一步提升深度迁移学习方法的效率和有效性。

　　与深度学习给计算机视觉带来的技术突破类似，在NLP模型的效果突破之后，零售快消、公共安全、媒体出版等各行业也将出*敏*感*词*十年。我希望更多的人加入这个令人兴奋的行业。

　　1个

　　2个

　　3个

　　4个

　　解决方案:篇五：数字化转型行动指南

　　优化您的组织：

　　1、建立业务与技术一体化的组织，就是在业务中建设技术能力，为业务部门配备技术人员，使其成为具体业务部门的一部分，形成长期固定的组织形式。

　　绝大多数公司采用职能部门制组织，看似分工明确，流程顺畅，但效率低，速度慢，时间成本、人力成本、沟通成本特别高，而简单的问题复杂化，表现为慢、费、难的问题

　　有些公司采用的是项目制组织，这自然是一种临时组织，只对项目目标负责，不对长期结果负责。在这个过程中，不可能将项目中获得的数字化经验积累成公司的能力。一旦项目组解散，任何组织都无法承担企业数字化转型的长期任务。解决慢、贵、难的问题，但工艺能力无法固化，容易流失

　　许多公司没有意识到人才在哪里，能力就在哪里。职能部门组织和项目型组织之所以不能在数字化转型中发挥作用，是因为他们忽略了这一点：能力是人与生俱来的。业务技术集成的组织方式是目前华为经过10多年探索形成的最好的组织方式。在这种组织模式中，能力不是封闭固化的，而是不断增长的

　　2、成立公司级数据管理部门，由各领域专家组成，发布企业数据管理总体纲要，编制数据质量管理政策和数据源头管理政策，定期审核数据结构，确定数据归属，确定数据互操作性规范等

　　数据是资产，数据是资产。如果没有这样的组织，那么资产连管理部门都没有。您是否羞于说数据是一种资产？

　　这个组织最大的职责是建立一个结构和组织数据以进行有效的沟通。未考虑之前，切不可急于各种系统。你宁愿慢一点，否则你将需要花费数倍的精力来清理数据。

　　管理数据质量：

　　1、元数据管理：元数据是用来描述数据的数据。这个非常重要。例如生产班次数据定义为B、C、A，分别代表白班、夜班、三班。这使 BCA 变得有意义。而一旦定义好，存C就是夜班，不能随便改，C班和二班都不是。这个必须要由相应的业务部门来管理，大部分公司不重视这个。同样，这非常非常重要！

　　2、“一数一源，用而不存”：标准化数据是不同业务流程之间相互沟通的业务语言。一个数据定义完成后，其他系统调用只能从这个数据的源头调用。这是非常非常重要的。事实上，在大多数公司，数据源表面上是单一部门管理，但存储时转手的部门太多，实际调用时数据的真实性和准确性根本无法保证. 比如我司产品二维码编码规则末尾两位代表产品模具号（元数据概念），开发部数据库中存有对照表，其中45代表编号. 12 产品B模具生产部门调用时，数字45被解释为产品B的12号模具，存入生产数据库。这样45可能会被误解为12，中间dump的进程越多，丢失和更改的数据就越多，最终会导致不同业务部门对同一个对象的描述不一致。

　　3、数据类型：主要是文本、数字、日期等类型，根据业务类型设置，该选什么类型，很多公司不注重数据类型的管理，基本都是文本类型，比如date Stored作为文本类型，导致数据库中存储了大量非日期的日期（如2021-01-35），后期数据汇总分析时经常会报错。

　　4. ER模型：又称雪花模型、实体-关系模型，它提供了一种表示实体、属性和联系的方法，是一种描述现实世界概念结构模型的方法。实体对象之间的关系通常是*敏*感*词*、一对多、多对多等，这些概念非常重要和基础，严格按照这种方式设计信息系统会避免很多冗余. 而且，ER模型是数据建模和分析的基础，是数据分析各个环节不可或缺的理论基础。

　　5、主数据编码：公司核心实体对象必须编码，编码规则可由公司自行设计。只有编码对象才能成为数字世界中真实对象的孪生对象。不难理解，一个人的*敏*感*词*号码就是一个人的实体对象代码。在数字世界中，*敏*感*词*号码代表一个人的唯一实体，参与数字世界的商业运作，而不是人的姓名。

　　很多公司努力开发了系统，却在业务中途崩盘，这一般是由于对上述对象的管理不到位造成的。这也是我在工作中经常遇到的事情，需要花很多时间去处理。其实都是脏活累活。如果在系统设计中考虑到以上问题，将为后期更多进程的不断扩展和介入提供更多的支持。方便的。

　　数据治理能力不是一个崇高的概念。企业只要数据质量好，就可以不断打磨出适合企业的数据标准。您可以开发适合您的数字系统。换句话说，数据治理是一个标准的管理问题。

　　学习数据工具：

　　以下内容主要是为了提高企业的业务效率。掌握它的人越多，对企业越有利

　　数据采集

" />

　　1、设备数据采集OPC、组态软件InTouch、组态王等（略），这些我都不会，下次找高手专门写篇文章。

　　2.网络爬虫

　　互联网是当今世界上最大的数据库。如果你学习了爬虫技术，你可以在网络中采集

你需要的数据，及时将数据保存到本地，参与到你公司的业务流程中。

　　常见的非编程爬虫软件有：优采云

collector、优采云

collector等，基本上就是拖拽数据采集规则就形成了，非常友好，可以满足80%的使用场景。高级用户需要学习一些HTML标签和XPath定位技术。接下来的升级是用编程语言写爬虫，推荐Python。

　　3、正则表达式：

　　Regular Expression，缩写为RE，是字符串运算的逻辑公式。就是先定义一个特定字符的组合，然后使用这个组合所代表的规则来过滤字符串的逻辑。主要用于检查文本输入的合规性，检查数据入库前，使存储的数据干净整洁，符合要求。例如，“^\d{n}$”用于限制只能输入n位的数字。

　　数据存储

　　1.主要是关系型数据库，Access一般个人用，免费MySQL一般中小企业用，大一点的企业可以用微软的SQLserver，不缺钱的用Oracle的Oracle。每个数据库都有自己的管理工具，可以借鉴贵公司使用的数据库。通用的数据库管理工具Navicat比较流行。

　　2.非关系型数据库，代表产品MongoDB，基于键值对存储，听说性能比较好，没用过。

　　3.文件存储、FTP

　　这里主要学习的是SQL语言，99%的语法是所有数据库通用的。业务人员如果掌握了简单的SQL，后面进行自助分析时就会游刃有余。

　　数据清洗

　　为了获得可供分析系统使用的优质源数据，必须进行数据清洗（ETCL，Extract-Transform-Clean-Load）。这个过程是对业务系统的数据进行抽取、转换、清洗，加载到数据仓库的过程。ETCL是数据集成的第一步，也是构建数据仓库最重要的一步。其目的是整合企业中分散、杂乱、不统一的数据，为下一步的建模和分析做准备。

　　大多数 ETCL 工具都集成到分析工具中。我理解ETCL其实是一种将不规则数据转化为规则数据的方法，而不仅仅是一个清洗工具。

　　比如数据库中的视图函数，你可以通过各种函数把表中的数据处理成可以分析的数据形式。

　　在清理过程中，如果能了解一些基本的统计数据就好了，比如均值、标准差、中位数等，这些功能都收录

在工具中。有一次成都政府在调查我们公司员工的收入时，要求他们按类别填写中位数，这让我们HR很为难。

　　ETCL工具，个人使用推荐Excel的powerquery，2016版本后直接集成到Excel中，不需要单独安装。重要性不言而喻。可以从各种数据库和文件中提取数据，可视化的操作流程让数据清洗变得非常简单

　　报表系统

　　对于个人使用，推荐使用 Excel power pivot。2013之后的Excel直接集成了这个插件，使用DAX表达式（几乎和Excel函数一样）进行简单的数据清洗，拖拽完成数据建模，最后以数据透视表的形式进行OLAP多维分析。Excel基础好的同学，学起来毫无压力。

　　团队使用，推荐Finereport，低代码编程，可定制设计一整套企业解决方案。设计界面类似Excel（功能与Excel功能基本一致）。如果你的Excel功底还不错，SQL功底很厉害的话，学这个也没什么压力。

" />

　　自助分析系统（BI）

　　又称敏捷商业智能系统，是让业务人员在数据中自由探索的系统。

　　例如，当业务人员需要分析哪些因素与报废率有关时，传统的方法是先根据经验或专业理论猜测可能的原因，比如温度、湿度等，然后采集一段时间的数据，最后做个散点图，求相关系数。BI 是如何做到的？可以打开BI软件，用SQL调取温湿度数据，然后调取报废率数据，做散点图，自动计算相关系数。听起来差不多，但是如果你好奇的话，你可以把企业里面的数据都跑一遍。数据用于与废品率相关联，例如材料的化学成分，机械性能数据，甚至员工出勤率，食堂就餐人数，拖拽看与报废率的相关性。以此寻找可能的突破点。只需几分钟，这在传统分析中是不可想象的。可能有朋友听过，我说的是探索性分析。我认为BI是为业务人员的探索性分析而生的。

　　BI常用工具

　　1. Tableau，目前世界上最好的商业智能软件，市场占有率最高，但去年它也顶着漂亮的国民名片跟着国人的脖子，让中国高校论文发表受挫2020年，爱国者果断放弃（主要是收费太高）

　　2.powerBI，微软出品，免费*敏*感*词*，直接与Excel幂查询集成，不断更新各种图表插件，是探索性分析的神器，会Excel学习成本很低

　　3、永红BI国内市场占有率第一，仅次于Tableau。没用过，不做评价

　　4.FineBI，帆软出品，虽然功能不如这两个国外的，但是最懂中国人，操作起来也很方便。比如计算同比，需要在power BI中写公式，但在Fine BI中只需要点OK就可以了，而且对中文地图的支持还是比较友好的。

　　BI是未来的趋势，相信会越来越受到管理层的重视。

　　通用工具Excel

　　Excel在上述工具中多次提到，Excel是学习上述工具的基础，因为：

　　1、Excel表格可以作为数据库，每张表格都可以作为数据库源表

　　2、在Excel中获取外部数据的选项中，点击从Microsoft Query，就可以直接使用SQL来操作数据，就像一个数据库管理工具

　　3.Excel幂查询是一款专业的数据清理工具

　　4.Excel power pivot是一款专业的数据建模工具

　　5.power BI 专业的敏捷自助分析工具

　　6、VBA是Excel的加分项。如果你学会了，你可以用Excel设计一套完整的商务软件

　　学习Excel再学习其他工具，可以事半功倍。

　　最后推荐一本书《华为数据之道》，这是一本从技术、流程、管理等多个维度系统解读华为数据治理和数字化转型的书。书中浓缩了大量宝贵的经验、方法论、规范、模型、解决方案和案例，不仅可以即学即用，还可以了解华为数字化建设的全过程。

AI时代内容工厂

解决方案:百分点苏海波：深度迁移学习在NLP中的应用及实践

0 个评论

发起人