软文一件采集器(本文大数据技术栈大数据开发岗位介绍 )

优采云 发布时间: 2022-01-11 13:00

  软文一件采集器(本文大数据技术栈大数据开发岗位介绍

)

  为了方便大家梳理大数据学习路线,本文从以下四个方面介绍大数据技术:

  大数据技术栈

  大数据的历史

  大数据应用

  大数据开发岗位

  一、大数据技术栈

  之前有个同事问我怎么转行大数据开发,他在网上搜了一堆大数据相关的技术,但是不知道从哪里入手,学什么技术,这些技术栈有什么关系. 刚开始转大数据的时候,有点迷茫,但是整体接触之后才弄明白大数据的技术栈。

  做大数据开发,你要做四件事,采集,存储,查询,计算。此外,还需要一些发展所需的基本语言技能。根据这些维度,我划分了大数据的常用技术栈。

  

  基础能力

  毋庸置疑,java是当今世界上使用最广泛的语言,基本上是程序员必备的语言,大数据生态系统的很多组件都是通过java开发的。Python 通常用于爬虫、数据分析和机器学习。一些大数据组件是用python开发的,比如airflow。scala的底层还是java。由于spark是由scala开发的,而且scala还集成了很多spark算子,所以spark开发中一般使用scala。

  数据采集

  一般通过filebeat、logstash、kafka、flume采集完成日志。一些应用系统的数据也会通过kafka或者binlog同步到大数据组件进行存储。

  数据存储

  这里的数据存储引擎与传统的关系型数据库有很大的不同。一个常见的分布式存储文件系统是 hdfs。另外,一些非结构化数据会被nosql存储。常见的nosql存储组件有hbase和redis。

  数据查询

  常见的有hive、spark sql、presto、kylin、impala、durid、clickhouse、greeplum,每个组件都有自己的查询特性和使用场景。此处不赘述,待会再说。

  数据计算

  常见的计算方法有流计算和批处理,线计算和实时计算按效果分开。对应的计算组件是storm、spark stream和flink。

  其他

  分布式协调器:为了提高可靠性,大数据组件通常是分布式存储的,这涉及到各个组件之间的协调和同步。最常见的协调员是动物园管理员。

  资源管理器:为了提高计算能力,会分配计算资源(CPU、内存、磁盘)。常见的组件包括纱线和金属丝。

  调度管理器:调度管理器管理任务何时执行、周期性执行、是否重试等,常见的有airflow、dalphine schduler、oozie、azkaban。

  二、大数据技术发展史

  学习一门技术,知道能用就够了,至少能解决问题。但如果你想走得更远,你仍然需要了解一项技术的发展历史。通过发展历程,您可以更深入地了解这项技术的产生原因、背后的原创设计以及使用场景。

  大数据技术的起源

  大数据最早起源于谷歌。大家都知道google主要提供网页检索服务,而这个服务依赖于两个能力:网页的采集和索引的构建。有了这两个能力,我们就可以通过检索服务在互联网上搜索网页。这些网页和索引都需要大量的存储和计算能力。为了提高这两项能力,谷歌发表了三篇重要论文。

  2003年,分布式文件系统GFS。

  2004年,大数据分布式计算框架MapReduce。

  2006年,NoSql数据库系统。

  这三篇论文为大数据技术奠定了基础。

  Hadoop技术

  受到谷歌论文的启发,2004 年 7 月 Doug 和 Mike Cafarella 在 Nutch 中实现了类似于 GFS 的功能(Nutch 的设计目标是构建一个*敏*感*词*的全网搜索引擎,包括网页爬取、索引、查询等),即,HDFS的前身。2005 年 2 月,Mike Cafarella 在 Nutch 中实现了 MapReduce 的初始版本。GFS 和 MapReduce 是 hadoop 的前身。2006年,hadoop从Nutch项目中分离出来,贡献给Apache,成为Apache的顶级项目。

  雅虎的猪

  2006 年,雅虎为了让 MapReduce 技术更易用,封装了 MapReduce 技术,开发了一个名为 Pig 的工具,类似于 SQL 脚本查询。使用 Pig 编写 SQL 会自动转换成 MapReduce 执行,大大优化了 MapReduce 的性能。使用困难。

  脸书蜂巢

  2007年,Facebook进一步优化了查询方式,开发了一套可以直接使用SQL查询大数据的工具——HIVE。只要懂 SQL 的开发者都可以使用这个组件。

  Powerset 的 HBASE

  2007年,Powerset的工作人员通过Google的论文开发了Java版BigTable,即HBASE。HBASE 在 2008 年被贡献给 Apache。

  火花的产生

  2009 年,加州大学伯克利分校的研究人员在使用 MapReduce 进行实验项目时,性能无法满足要求。于是我开始设计火花。基于内存计算的spark的性能远高于spark。

  三、大数据应用

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线