Spark的Windows环境搭建及wordCount 有更新!

前面的分布式环境搭建是为了能够了解到Spark集群架构,一般测试环境都是本地环境,不需要作业提交,这个过程太过繁琐,浪费很多时间。但是对于一些不得不在集群环境试验的实例就需要提交作业到集群(分布式,伪分布式)上。不过对域我们实验来说本地环境是个不错的选择,可以直接在IDE中运行程序,不必将程序提交到集群中就能够得到结果…

By/Atlas/日期:2017-07-20 09:44:38/ 0 评论/698 浏览 阅读全文 »
Apache Hdoop HDFS HA高可用 有更新!

在Hadoop的集群中,我们知道主从机制保证一个Name Node和多个DataNode,无论是读取数据还是写入数据都要从NameNode中获取数据的元数据,从而得到数据真正存储的位置,才能对数据进行操作。在这种情况下,普通的个单机节点很容易出问题,一旦NameNode出现了问题,那么所有的任务都获取不到数据…

By/Atlas/日期:2017-08-10 11:38:10/ 0 评论/1,212 浏览 阅读全文 »
Apache Hadoop核心模块HDFS 有更新!

HDFS是Hadoop设计运行在商用硬件的分布式文件系统,它与现有的文件系统很相似性,同样拥有显著的差异。HDFS是部署在低廉硬件上的高度容错设计。同时提供高吞吐量的数据访问,适合于大数据集应用。HDFS放宽一些POSIX的要求使其能够访问文件系统数据流。

By/Atlas/日期:2017-07-27 17:20:48/ 0 评论/970 浏览 阅读全文 »
Apache Hadoop Shuffle过程 有更新!

一个MR程序执行要经历以下五个步骤:input=>Map=>Shuffle=>Reduce=>output其中map和reduce需要我们根据业务逻辑编写代码,在Map和reduce之间存在一种自动执行的操作Shuffle。同样的Shuffle也可以划分为Map端的ShuffleReduce端的Shuffle,Map操作之后的的数据如何转换成Reduce的输入,这个过程和操作由Shuffle决定。

By/Atlas/日期:2017-08-08 17:58:14/ 1 评论/1,178 浏览 阅读全文 »
Spark的作业提交及运行流程的异同(Standalone,Yarn) 有更新!

Local本地方式是在本地JVM中启动一个进程来模拟运行环境,多个线程进行作业运行,主要用于开发测试。这里主要看Standalone,Yarn,这两种模式的区别在于ClusterManager的不同,前者的ClusterManager是Master,后者是RecourseManager,ClusterManager的作用在于进行各个进程的启动管理,资源的调度。

By/Atlas/日期:2017-07-18 16:32:29/ 0 评论/1,673 浏览 阅读全文 »
Apache Hadoop核心模块YARN 有更新!

Yarn作为Job的管理和资源调度器,他的基本思想是把资源调度和作业监控分配到单独的守护进程中去。这一想法由一个全局的RecourseManager(RM)和每个APP的ApplicationMaster(AM)实现。同样RM和AM是主从架构,RM和NameNode位于同一Node,AM则位于DataNode.

By/Atlas/日期:2017-07-27 18:31:41/ 0 评论/706 浏览 阅读全文 »
Linux常用命令大全 有更新!

搜集了一些Linux命令,包括基本的文件操作,关机命令,用户管理,打包,解压操作,资源管理操作,网络管理操作,等等。。

By/Atlas/日期:2017-07-27 13:15:25/ 7 评论/905 浏览 阅读全文 »
Apache Hadoop2.x概述与基本模块

大数据背景下的数据处理和存储采用高性能的PC,来进行计算,仍不能满足数据的增长和性能的要求,Hadoop分布式系统采用分而治之的策略,采用多台廉价的PC分别处理大量数据中的一部分数据,最终将结果汇总。提供了高可用,可扩展的解决方案。…

By/Atlas/日期:2017-07-27 13:18:09/ 0 评论/691 浏览 阅读全文 »
Spark发展历程与基本概念 有更新!

Apache Spark是一个开源簇运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于HadoopMapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了内存内运算技术,能在数据尚未写入硬盘时即在内存内分析运算。Spark在内存内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时…

By/Atlas/日期:2017-07-12 22:49:54/ 0 评论/1,005 浏览 阅读全文 »
大数据实时计算框架:SparkStreaming 有更新!

SparkStreaming是Spark提供的分布式的大数据实时计算框架,是基于SparkCore(Spark核心API)的扩展,他提供了动态的,高吞吐量的,可容错的流式数据处理。他可以从多个数据源(Kafka,Flume,Kinesis,Tcp spckets)中获取数据,然后使用复杂的算法和高级的函数算子如:map,reduce,join,window…进行数据处理加工…

By/Atlas/日期:2017-07-13 11:54:02/ 1 评论/1,875 浏览 阅读全文 »