数据挖掘学习必备的10个技能(干货)

优采云 发布时间: 2020-08-09 23:48

  

  数据挖掘是从庞大的数据源中提取有效信息,并将该信息转换为潜在有用且最终便于理解的模式,以供进一步使用。正如 Wikipedia 所解释的,它除了包括数据处理和管理,而且还涉及机器学习,统计和数据库系统的智能技巧。

  数据挖掘也是数据科学领域中最重要的技术,在2016年至2018年Glassdoor的“美国50最佳工作”列表中,数据挖掘排行第一。 此外,与2016年的1700个职位空缺相比,这两年内列举的职位空缺数目显著降低了160%。

  为了帮助你们把握数据科学技术,我们之前出版了80本值得一读的最佳数据科学书籍和88种成为数据科学家的资源和工具。 因此,在本文我将专注于数据挖掘领域,并总结10个您须要的基本技能。

  计算机科学技能

  1. 编程/统计语言:R,Python,C ++,Java,Matlab,SQL,SAS,shell / awk / sed…

  数据挖掘在很大程度上依赖于编程,但如今尚无定论那个才是数据挖掘的最佳语言。这完全取决于您处理的数据源。彼得·格里森(Peter Gleeson)提出了四个频谱供您选择哪种编程语言:特异性,通用性,生产率和性能,可以将它们视为一对轴(特异性-通用性,性能-生产率)。 大多数语言都有利有弊。根据KD Nuggets的研究,R和Python是数据科学中最受欢迎的编程语言。

  更多资源:

  您应当为数据科学学习什么语言[ Freecode Camp ]

  R中的数据挖掘算法[ Wikibooks ]

  用于数据挖掘的最佳Python模块[ KD Nuggets ]

  2. 大数据处理框架:Hadoop,Storm,Samza,Spark,Flink

  处理框架对系统中的数据进行估算,例如从非易失性储存中读取数据并将数据吸收到数据系统中,这是从大量单个数据点中提取信息和洞察力的过程。它可以分为3类:仅批处理,仅流和混和。

  

  Hadoop和Spark是迄今为止施行最多的框架。如果无需考虑时间成本,Hadoop是批处理工作负载的一个不错选择。与其他施行相比,Hadoop的实现成本更低。 而Spark是混和工作负载的不错选择,它可以为流提供更高速率的批处理和微批处理。

  更多资源:

  Hadoop,Storm,Samza,Spark和Flink:大数据框架比较[ Digital Ocean ]

  数据挖掘的数据处理框架[ Google Scholar ]

  3. 操作系统:Linux

  对于数据挖掘科学家来说,Linux是一种流行的操作系统,对于操作小型数据集而言,Linux愈发稳定和高效。如果您了解Linux的常用命令,并且还能在Linux上布署Spark分布式机器学习系统,那么这是一个减号。

  4. 数据库知识:关系数据库和非关系数据库

  要管理和处理小型数据集,您必须把握关系数据库的知识,例如SQL或Oracle,或非关系数据库,其主要类型为:列:Cassandra,HBase; 文件:MongoDB,CouchDB; 关键值:Redis,Dynamo。

  统计与算法方法

  5. 基本统计知识:概率,概率分布,相关性,回归,线性代数,随机过程…

  相关,回归,线性代数,随机过程…

  回顾一下数据挖掘的定义,我们就晓得数据挖掘除了涉及编码或计算机科学,而是处于多个科学领域的交叉点上,其中统计学是不可或缺的一部分。 统计学的基本知识对于数据挖掘者至关重要,它可以帮助您辨识问题、获得更准确的推论、区分因果关系和相关性以及量化发觉结果的确定性。

  更多资源:

  我应当晓得哪些统计才会做数据科学[ Quora ]

  数据挖掘的统计方式[ Research Gate ]

  6. 数据结构与算法

  数据结构包括链表,链表,堆栈,队列,树,哈希表,集合等,而常见的算法包括排序,搜索,动态编程,递归等

  精通数据结构和算法对于数据挖掘至关重要,它可以在处理大量数据时为您提供更具创造性和效率的算法解决方案。

  更多资源:

  数据,结构和数据科学传递[ IBM Developer ]

  Cousera:数据结构和算法[ 加利福尼亚大学圣地亚哥分校]

  7. 机器学习/深度学习算法

  这是数据挖掘的最重要部份之一。 机器学习算法可构建样本数据的物理模型,以进行预测或决策,而无需进行明晰编程即可执行任务。 深度学习是更广泛的机器学习方法系列中的一部分。机器学习和数据挖掘一般采用相同的方式,并且存在显著的重叠。

  更多资源:

  使用Python和R代码的机器学习算法的要点[ Analytics Vidhya ]

  很棒的机器学习框架,库和软件的清单(按语言)[ Github josephmisiti ]

  8. 自然语言处理

  自然语言处理(NLP)作为计算机科学和人工智能的子领域,可帮助计算机理解,解释和操纵人类语言。 NLP被广泛用于动词,语法和语义剖析,自动摘要和文本收录。 对于须要处理大量文本的数据采集器来说,了解NLP算法是必不可少的技能。

  更多资源:

  面向数据科学家的10个NLP任务[ Analytics Vidhya ]

  很棒的机器学习框架,库和软件的清单(按语言)[ Github josephmisiti ]

  开源NLP库:Standford NLP;Apache OpenNLP ; Naturel语言工具包

  其他

  9. 项目经验

  您的项目经验是您数据挖掘技能的最省力的证明。 当被问到怎样获得数据科学的第一份工作时,DataCamp的首席数据科学家David Robinson说:“对我来说,最有效的策略是从事公共工作。在博士后期间我进行了好多开源开发并写博客。这些都为我的数据科学技能提供了公开证据。” 如果您希望获得更多的数据挖掘经验,请尝试在12个最受欢迎的数据科学计划平台中中查找最佳项目。

  10. 沟通与抒发方法

  数据挖掘者除了要处理数据,而且还负责向其他人,甚至是非技术受众,例如营销团队,解释从数据中获取的结果和看法。 您应当才能以口头,书面和陈述的形式挺好地解释数据结果,讲故事。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线