Spark 知识点回顾与深入 置顶! 有更新!

Spark Core

1、 Spark发展历程与基本概念
2、 Spark2.x集群搭建与参数详解(on Standalone)
3、 Spark的Windows环境搭建及wordCount
4、 Spark编程步骤及RDD的特性与基本操作
5、 SparkRDD的Transformations/Actions操作实战
6、 Spark的作业提交及运行流程的异同(Standalone,Yarn)
7、 Spark任务执行的流程及内部原理
8、 Spark Shuffle过程及原理剖析
9、 Spark BlockManager和CacheManager的基本原理
⬜ [10、Spark Checkpoint原理剖析]
⬜ [11、Spark 性能优化]

Spark SQL

⬜ [1、SparkSQL的前世今生]
⬜ [2、SparkSQL多数据源加载/转换]
⬜ [3、SparkSQL的内置函数]
⬜ [4、SparkSQL的开窗函数]
⬜ [5、SparkSQL的自定义函数]
⬜ [6、SparkSQL案例实战]
⬜ [7、SparkSQL的工作原理及性能优化]
⬜ [8、Hive On Spark]

Spark Streaming

⬜ [1、 Spark Streaming简介及工作原理]
⬜ [1、 Spark Streaming实时WordCount开发]

。。。。

⬜ [x、Spark源码追踪系列:]
Master
Worker
Job
DAGscheduler
Stage划分
Task最佳位置,
TaskSchulder,
Executor,
Shuffler,
BlockManager,
CacheManager

. - - —— ————THE END——— —— - - .

⚠求而不得,往往不求而得!
⚠此文章为原创作品,转载务必保留本文地址及原作者。

评论

发表评论

validate