Hadoop hadoop相关

Apache Hdoop HDFS HA高可用 有更新!

在Hadoop的集群中,我们知道主从机制保证一个Name Node和多个DataNode,无论是读取数据还是写入数据都要从NameNode中获取数据的元数据,从而得到数据真正存储的位置,才能对数据进行操作。在这种情况下,普通的个单机节点很容易出问题,一旦NameNode出现了问题,那么所有的任务都获取不到数据…

Apache Hadoop Shuffle过程 有更新!

一个MR程序执行要经历以下五个步骤:input=>Map=>Shuffle=>Reduce=>output其中map和reduce需要我们根据业务逻辑编写代码,在Map和reduce之间存在一种自动执行的操作Shuffle。同样的Shuffle也可以划分为Map端的ShuffleReduce端的Shuffle,Map操作之后的的数据如何转换成Reduce的输入,这个过程和操作由Shuffle决定。

Apache Hadoop核心模块MapReduce 有更新!

Hadoop MapReduce是一个很容易在并行大集群(数千个节点)以一个可靠的商品硬件容错的方式执行大数据应用程序的框架。一个MapReduce Job通常会将输入数据集分成多个任务快,这些任务块由Map以完全并行的方式执行。MapReduce框架对于Map的输出进行排序,并把结果输入给Reduce操作。

Apache Hadoop核心模块YARN 有更新!

Yarn作为Job的管理和资源调度器,他的基本思想是把资源调度和作业监控分配到单独的守护进程中去。这一想法由一个全局的RecourseManager(RM)和每个APP的ApplicationMaster(AM)实现。同样RM和AM是主从架构,RM和NameNode位于同一Node,AM则位于DataNode.

Apache Hadoop核心模块HDFS 有更新!

HDFS是Hadoop设计运行在商用硬件的分布式文件系统,它与现有的文件系统很相似性,同样拥有显著的差异。HDFS是部署在低廉硬件上的高度容错设计。同时提供高吞吐量的数据访问,适合于大数据集应用。HDFS放宽一些POSIX的要求使其能够访问文件系统数据流。

Apache Hadoop2.x概述与基本模块

大数据背景下的数据处理和存储采用高性能的PC,来进行计算,仍不能满足数据的增长和性能的要求,Hadoop分布式系统采用分而治之的策略,采用多台廉价的PC分别处理大量数据中的一部分数据,最终将结果汇总。提供了高可用,可扩展的解决方案。…