软文一件采集器(本文大数据技术栈大数据开发岗位介绍 )

优采云发布时间: 2022-01-11 13:00

　　软文一件采集器(本文大数据技术栈大数据开发岗位介绍

)

　　为了方便大家梳理大数据学习路线，本文从以下四个方面介绍大数据技术：

　　大数据技术栈

　　大数据的历史

　　大数据应用

　　大数据开发岗位

　　一、大数据技术栈

　　之前有个同事问我怎么转行大数据开发，他在网上搜了一堆大数据相关的技术，但是不知道从哪里入手，学什么技术，这些技术栈有什么关系. 刚开始转大数据的时候，有点迷茫，但是整体接触之后才弄明白大数据的技术栈。

　　做大数据开发，你要做四件事，采集，存储，查询，计算。此外，还需要一些发展所需的基本语言技能。根据这些维度，我划分了大数据的常用技术栈。

　　基础能力

　　毋庸置疑，java是当今世界上使用最广泛的语言，基本上是程序员必备的语言，大数据生态系统的很多组件都是通过java开发的。Python 通常用于爬虫、数据分析和机器学习。一些大数据组件是用python开发的，比如airflow。scala的底层还是java。由于spark是由scala开发的，而且scala还集成了很多spark算子，所以spark开发中一般使用scala。

　　数据采集

　　一般通过filebeat、logstash、kafka、flume采集完成日志。一些应用系统的数据也会通过kafka或者binlog同步到大数据组件进行存储。

　　数据存储

　　这里的数据存储引擎与传统的关系型数据库有很大的不同。一个常见的分布式存储文件系统是 hdfs。另外，一些非结构化数据会被nosql存储。常见的nosql存储组件有hbase和redis。

　　数据查询

　　常见的有hive、spark sql、presto、kylin、impala、durid、clickhouse、greeplum，每个组件都有自己的查询特性和使用场景。此处不赘述，待会再说。

　　数据计算

　　常见的计算方法有流计算和批处理，线计算和实时计算按效果分开。对应的计算组件是storm、spark stream和flink。

　　其他

　　分布式协调器：为了提高可靠性，大数据组件通常是分布式存储的，这涉及到各个组件之间的协调和同步。最常见的协调员是动物园管理员。

　　资源管理器：为了提高计算能力，会分配计算资源（CPU、内存、磁盘）。常见的组件包括纱线和金属丝。

　　调度管理器：调度管理器管理任务何时执行、周期性执行、是否重试等，常见的有airflow、dalphine schduler、oozie、azkaban。

　　二、大数据技术发展史

　　学习一门技术，知道能用就够了，至少能解决问题。但如果你想走得更远，你仍然需要了解一项技术的发展历史。通过发展历程，您可以更深入地了解这项技术的产生原因、背后的原创设计以及使用场景。

　　大数据技术的起源

　　大数据最早起源于谷歌。大家都知道google主要提供网页检索服务，而这个服务依赖于两个能力：网页的采集和索引的构建。有了这两个能力，我们就可以通过检索服务在互联网上搜索网页。这些网页和索引都需要大量的存储和计算能力。为了提高这两项能力，谷歌发表了三篇重要论文。

　　2003年，分布式文件系统GFS。

　　2004年，大数据分布式计算框架MapReduce。

　　2006年，NoSql数据库系统。

　　这三篇论文为大数据技术奠定了基础。

　　Hadoop技术

　　受到谷歌论文的启发，2004 年 7 月 Doug 和 Mike Cafarella 在 Nutch 中实现了类似于 GFS 的功能（Nutch 的设计目标是构建一个*敏*感*词*的全网搜索引擎，包括网页爬取、索引、查询等），即，HDFS的前身。2005 年 2 月，Mike Cafarella 在 Nutch 中实现了 MapReduce 的初始版本。GFS 和 MapReduce 是 hadoop 的前身。2006年，hadoop从Nutch项目中分离出来，贡献给Apache，成为Apache的顶级项目。

　　雅虎的猪

　　2006 年，雅虎为了让 MapReduce 技术更易用，封装了 MapReduce 技术，开发了一个名为 Pig 的工具，类似于 SQL 脚本查询。使用 Pig 编写 SQL 会自动转换成 MapReduce 执行，大大优化了 MapReduce 的性能。使用困难。

　　脸书蜂巢

　　2007年，Facebook进一步优化了查询方式，开发了一套可以直接使用SQL查询大数据的工具——HIVE。只要懂 SQL 的开发者都可以使用这个组件。

　　Powerset 的 HBASE

　　2007年，Powerset的工作人员通过Google的论文开发了Java版BigTable，即HBASE。HBASE 在 2008 年被贡献给 Apache。

　　火花的产生

　　2009 年，加州大学伯克利分校的研究人员在使用 MapReduce 进行实验项目时，性能无法满足要求。于是我开始设计火花。基于内存计算的spark的性能远高于spark。

　　三、大数据应用

0

2022-01-11

软文一件采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

软文一件采集器(本文大数据技术栈大数据开发岗位介绍 )

0 个评论

发起人

AI时代内容工厂

软文一件采集器(本文大数据技术栈大数据开发岗位介绍 )

0 个评论

发起人

相关问题