青云博客 分享、记录

spark-submit任务提交

Run application locally(本地运行) /usr/local/spark-3.3.0/bin/spark-submit \ --master local[8] \ --class com.zxw.spark.Etl \ /opt/zxw-spark-1.0.jar hdfs://

詹学伟 发布于 2024-04-21

Spark问题集合

问题一 描述:spark任务提交后信息报错:Total size of serialized results of 19 tasks (1069.2 MB) is bigger than spark.driver.maxResultSize (1024M) 解决办法:在代码中加设置或者在提交命令的时

詹学伟 发布于 2024-04-21

Spark数据清洗案例

前提:搭建hadoop集群环境、搭建好spark集群环境 1.新建maven项目 2.导入maven依赖 <?xml version="1.0" encoding="UTF-8"?>     <project xmlns="http://maven.apache.org/POM/4.0.0"    

詹学伟 发布于 2024-04-21

RDD常用的算子操作

一、map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新 RDD中都有且只有一个元素与之对应 @Test public void testMap() {     SparkConf sparkConf = new SparkConf()      

詹学伟 发布于 2024-04-21

Spark分布式集群搭建

一、运行环境说明 Spark的运行环境,可以是在windows上,也可以是运行在linux上,一般情况而言都是运行在linux上的。所以,我们课程也是基于linux来运行的,linux使用的Centos7版本。 下载地址:https://archive.apache.org/ 二、部署环境

詹学伟 发布于 2024-04-21