SparkCore 标签

Spark编程原理及RDD的特性与基本操作 有更新!

RDD的操作分为两个部分Transformation和Action。Transformmation->Action这两种操作分为多个算子(即操作函数)。Transformation针对已有的RDD创建一个新的RDD,主要是对数据进行映射,变换,统计,过滤。。。Action主要是对数据进行最后的执行操作,遍历,聚合,保存等操作…

By/Atlas/日期:2017-07-20 11:22:19/ 0 评论/388 浏览 阅读全文 »
Spark的Windows环境搭建及wordCount 有更新!

前面的分布式环境搭建是为了能够了解到Spark集群架构,一般测试环境都是本地环境,不需要作业提交,这个过程太过繁琐,浪费很多时间。但是对于一些不得不在集群环境试验的实例就需要提交作业到集群(分布式,伪分布式)上。不过对域我们实验来说本地环境是个不错的选择,可以直接在IDE中运行程序,不必将程序提交到集群中就能够得到结果…

By/Atlas/日期:2017-07-20 09:44:38/ 0 评论/381 浏览 阅读全文 »
Spark2.x集群搭建与参数详解(on Standalone) 有更新!

在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍Spark集群搭建以及xml参数配置。Spark的集群搭建同样分为分布式与伪分布式伪分布式主要是单独使用作为测试,对于后面可能使用的作业运行大部分都在本地测试。

By/Atlas/日期:2017-07-17 18:21:52/ 0 评论/355 浏览 阅读全文 »