青云博客 分享、记录

Spark问题集合

问题一 描述:spark任务提交后信息报错:Total size of serialized results of 19 tasks (1069.2 MB) is bigger than spark.driver.maxResultSize (1024M) 解决办法:在代码中加设置或者在提交命令的时

詹学伟 发布于 2024-04-21

Spark数据清洗案例

前提:搭建hadoop集群环境、搭建好spark集群环境 1.新建maven项目 2.导入maven依赖 <?xml version="1.0" encoding="UTF-8"?>     <project xmlns="http://maven.apache.org/POM/4.0.0"    

詹学伟 发布于 2024-04-21

RDD常用的算子操作

一、map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新 RDD中都有且只有一个元素与之对应 @Test public void testMap() {     SparkConf sparkConf = new SparkConf()      

詹学伟 发布于 2024-04-21

Spark分布式集群搭建

一、运行环境说明 Spark的运行环境,可以是在windows上,也可以是运行在linux上,一般情况而言都是运行在linux上的。所以,我们课程也是基于linux来运行的,linux使用的Centos7版本。 下载地址:https://archive.apache.org/ 二、部署环境

詹学伟 发布于 2024-04-21

zookeeper分布式安装

说明:在安装zookeeper前,请安装好jdk 1、下载 连接地址:https://archive.apache.org/dist/zookeeper/zookeeper-3.4.12/zookeeper-3.4.12.tar.gz 2、解压 tar -zvxf zookeeper-3

詹学伟 发布于 2024-04-21

springboot整合hive

1、添加pom依赖 <!-- 德鲁伊连接池依赖 --> <dependency>     <groupId>com.alibaba</groupId>     <artifactId>druid-spring-boot-starter</artifactId>     <version>1.2.5<

詹学伟 发布于 2024-04-21

hive建表语句

语法 CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (col_name data_type [COMMENT col_comment],...) [COMMENT table comment]  [ROW FORMAT DELIMITED ...

詹学伟 发布于 2024-04-21

Hive DML语句

1.掌握Hive SQL Load加载数据语句 LOAD DATA [LOCAL]INPATH 'filepath'[OVERWRITE]INTO TABLE tablename; 案例一:(文件存在于hiveserver2节点的服务器本地,该方式通过复制的方式加载数据) load data lo

詹学伟 发布于 2024-04-21

hive安装部署

詹学伟 发布于 2024-04-20