Spark 标签

SparkSQL的基本概念 有更新!

spark SQL,作为Apache Spark大数据框架的一部分,主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的查询操作。

By/Atlas/日期:2017-12-12 18:02:34/ 0 评论/263 浏览 阅读全文 »
Spark高级调优之shuffle调优

大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。

By/Atlas/日期:2017-11-24 17:44:05/ 0 评论/253 浏览 阅读全文 »
Spark基础调优之资源调优

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置,合理的参数设置才能保真程序的高效运行

By/Atlas/日期:2017-11-24 17:43:25/ 0 评论/164 浏览 阅读全文 »