spark-submit任务提交

Run application locally（本地运行） /usr/local/spark-3.3.0/bin/spark-submit \ --master local[8] \ --class com.zxw.spark.Etl \ /opt/zxw-spark-1.0.jar hdfs://

spark-submit任务提交

作者：青云发布时间：2024-04-21

分类：大数据

标签： #spark

Spark问题集合

问题一描述：spark任务提交后信息报错：Total size of serialized results of 19 tasks (1069.2 MB) is bigger than spark.driver.maxResultSize (1024M) 解决办法：在代码中加设置或者在提交命令的时

Spark问题集合

作者：青云发布时间：2024-04-21

分类：大数据

标签： #spark

Spark数据清洗案例

前提：搭建hadoop集群环境、搭建好spark集群环境 1.新建maven项目 2.导入maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"

Spark数据清洗案例

作者：青云发布时间：2024-04-21

分类：大数据

标签： #spark

RDD常用的算子操作

一、map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新 RDD中都有且只有一个元素与之对应 @Test public void testMap() { SparkConf sparkConf = new SparkConf()

RDD常用的算子操作

作者：青云发布时间：2024-04-21

分类：大数据

标签： #spark

Spark分布式集群搭建

一、运行环境说明 Spark的运行环境，可以是在windows上，也可以是运行在linux上，一般情况而言都是运行在linux上的。所以，我们课程也是基于linux来运行的，linux使用的Centos7版本。下载地址：https://archive.apache.org/ 二、部署环境

Spark分布式集群搭建

作者：青云发布时间：2024-04-21

分类：大数据

标签： #spark

共 5 篇文章

页