青云博客 记录、分享

spark-submit任务提交

Run application locally(本地运行) /usr/local/spark-3.3.0/bin/spark-submit \ --master local[8] \ --class com.zxw.spark.Etl \ /opt/zxw-spark-1.0.jar hdfs://

詹学伟 Published on 2024-04-21

Spark数据清洗案例

前提:搭建hadoop集群环境、搭建好spark集群环境 1.新建maven项目 2.导入maven依赖 <?xml version="1.0" encoding="UTF-8"?>     <project xmlns="http://maven.apache.org/POM/4.0.0"    

詹学伟 Published on 2024-04-21

RDD常用的算子操作

一、map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新 RDD中都有且只有一个元素与之对应 @Test public void testMap() {     SparkConf sparkConf = new SparkConf()      

詹学伟 Published on 2024-04-21

Spark分布式集群搭建

一、运行环境说明 Spark的运行环境,可以是在windows上,也可以是运行在linux上,一般情况而言都是运行在linux上的。所以,我们课程也是基于linux来运行的,linux使用的Centos7版本。 下载地址:https://archive.apache.org/ 二、部署环境

詹学伟 Published on 2024-04-21

zookeeper分布式安装

说明:在安装zookeeper前,请安装好jdk 1、下载 连接地址:https://archive.apache.org/dist/zookeeper/zookeeper-3.4.12/zookeeper-3.4.12.tar.gz 2、解压 tar -zvxf zookeeper-3

詹学伟 Published on 2024-04-21

springboot整合hive

1、添加pom依赖 <!-- 德鲁伊连接池依赖 --> <dependency>     <groupId>com.alibaba</groupId>     <artifactId>druid-spring-boot-starter</artifactId>     <version>1.2.5<

詹学伟 Published on 2024-04-21

hive建表语句

语法 CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (col_name data_type [COMMENT col_comment],...) [COMMENT table comment]  [ROW FORMAT DELIMITED ...

詹学伟 Published on 2024-04-21

Hive DML语句

1.掌握Hive SQL Load加载数据语句 LOAD DATA [LOCAL]INPATH 'filepath'[OVERWRITE]INTO TABLE tablename; 案例一:(文件存在于hiveserver2节点的服务器本地,该方式通过复制的方式加载数据) load data lo

詹学伟 Published on 2024-04-21

Docker常用命令

1、查看各个容器的IP docker inspect --format='{{.Name}} - {{range .NetworkSettings.Networks}}{{.IPAddress}}{{end}}' $(docker ps -aq) 2、启动所有的容器命令

詹学伟 Published on 2024-04-21
詹学伟 Published on 2024-04-20
Previous Next