Spark Spark相关资源教程文档。。。

SparkSQL的基本概念 有更新!

spark SQL,作为Apache Spark大数据框架的一部分,主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的查询操作。

Spark高级调优之shuffle调优

大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。

Spark基础调优之资源调优

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置,合理的参数设置才能保真程序的高效运行

Spark BlockManager和CacheManager的基本原理 有更新!

BlockManager是Spark中用来管理运行时分布式数据(缓存数据,shuffle数据,广播变量,磁盘,内存数据)的读写和存储。CacheManager是Spark中用来管理缓存数据的.