今天看啥  ›  专栏  ›  小小挖掘机

自己工作中超全spark性能优化总结

小小挖掘机  · 公众号  · 大数据  · 2020-05-22 12:46
来源:https://zhuanlan.zhihu.com/p/108454557作者:一块小蛋糕编辑:深度传送门Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。一、常用参数说明--driver-memory 4g : driver内存大小,一般没有广播变量(broadcast)时,设置4g足够,如果有广播变量,视情况而定,可设置6G,8G,12G等均可--executor-memory 4g : 每个executor的内存,正常情况下是4g足够,但有时处理大批量数据时容易内存不足,再多申请一点,如6G--num-executors 15 : 总共申请的executor数目,普通任务十几个或者几十个足够了,若是处理海量数据如百G上T的数据时可以申请多一些,100,200等--executor-cores 2 : 每个executor内的核数,即每个executor中的任务task数目,此 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照