前提:搭建hadoop集群环境、搭建好spark集群环境 1.新建maven项目 2.导入maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"
一、map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新 RDD中都有且只有一个元素与之对应 @Test public void testMap() { SparkConf sparkConf = new SparkConf()
一、运行环境说明 Spark的运行环境,可以是在windows上,也可以是运行在linux上,一般情况而言都是运行在linux上的。所以,我们课程也是基于linux来运行的,linux使用的Centos7版本。 下载地址:https://archive.apache.org/ 二、部署环境
说明:在安装zookeeper前,请安装好jdk 1、下载 连接地址:https://archive.apache.org/dist/zookeeper/zookeeper-3.4.12/zookeeper-3.4.12.tar.gz 2、解压 tar -zvxf zookeeper-3
1、添加pom依赖 <!-- 德鲁伊连接池依赖 --> <dependency> <groupId>com.alibaba</groupId> <artifactId>druid-spring-boot-starter</artifactId> <version>1.2.5<
1.掌握Hive SQL Load加载数据语句 LOAD DATA [LOCAL]INPATH 'filepath'[OVERWRITE]INTO TABLE tablename; 案例一:(文件存在于hiveserver2节点的服务器本地,该方式通过复制的方式加载数据) load data lo