詹学伟
詹学伟
Published on 2024-04-21 / 13 Visits
0
0

Spark问题集合

问题一

  1. 描述:spark任务提交后信息报错:Total size of serialized results of 19 tasks (1069.2 MB) is bigger than spark.driver.maxResultSize (1024M)

  2. 解决办法:在代码中加设置或者在提交命令的时候加设置
    2.1 方法一:
    程序中设置spark.driver.maxResultSize

SparkConf sparkConf = new SparkConf()
                //设置Spark应用程序的名称
                .setAppName("log_etl")
                // 设置模式为本地模式 [*] 为使用本机核数
                // .setMaster("local[*]");
                .setMaster("spark://node3:7077");
//        sparkConf.set("spark.driver.maxResultSize","2g");

2.2 方法二
提交命令的时候加上--conf spark.driver.maxResultSize=2048M

/usr/local/spark-3.3.0/bin/spark-submit \
--class com.zxw.spark.Etl \
--master yarn \
--driver-memory 8g \
--executor-memory 1g \
--total-executor-cores 6 \
--num-executors 2 \
--conf spark.shuffle.consolidateFiles=true \
--conf spark.driver.maxResultSize=2048M \
/opt/zxw-spark-1.0.jar hdfs://node3:8020/sdk/20230418/logs-.* hdfs://node3:8020/data/spark2

参考连接:https://blog.51cto.com/u_15278282/2931952



Comment