詹学伟

詹学伟

一个爱好编程的90后站长。

关注我詹学伟个人微信号:tobecomputer

您现在的位置是:网站首页>博客详情

hadoop2.5HA搭建

2020-04-09 詹学伟 专业交流 127 0

主从机构
主:jobtracker
从:tasktracker
四个阶段:
1、Split
2、Mapper:key-value(对象)
3、Shuffle
a)分区(partition,HashPartition:根据key的hashcode值 和 Reduce的数量 模运算),可以自定义分区,运算速度要快。一定要解决数据倾斜和reduce的负载均衡。
b)排序:默认按照字典排序。WriterCompartor(比较)
c)合并:减少当前mapper输出数据,根据key相同(比较),把 value 进行合并。
d)分组(key相同(比较),value组成一个集合)(merge)
4、Reduce
a)输入数据:key + 迭代器
Hadoop2.5 HA搭建
四台机器:hadoop1,hadoop2,hadoop3,hadoop4

 NNDNZK ZKFCJNRMNM
 hadoop1 y  y y 
 hadoop2 y y y y yyy
 hadoop3  y y  yy
 hadoop4  y   yy


1.删除masters文件
2.删除/opt/data下的数据文件

3.配置core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://bjsxt</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop</value>
</property>
</configuration>


4.配置hdfs-site.xml

<configuration>
<property>
<name>dfs.nameservices</name>
<value>bjsxt</value>
</property>
<property>
<name>dfs.ha.namenodes.bjsxt</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.bjsxt.nn1</name>
<value>hadoop1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.bjsxt.nn2</name>
<value>hadoop2:8020</value>
</property>
<property>
<name>dfs.namenode.http-address.bjsxt.nn1</name>
<value>hadoop1:50070</value>
</property>
<property>
<name>dfs.namenode.http-address.bjsxt.nn2</name>
<value>hadoop2:50070</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/bjsxt</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.bjsxt</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_dsa</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/opt/hadoop/data</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
</configuration>


1.准备zookeeper
a)三台zookeeper:hadoop1,hadoop2,hadoop3
b)编辑zoo.cfg配置文件
tickTime=2000

dataDir=/opt/zookeeper
clientPort=2181
initLimit=5
syncLimit=2
server.1=node6:2888:3888
server.2=node7:2888:3888
server.3=node8:2888:3888


c)在dataDir目录中创建一个myid的文件,文件内容为1,2,3
2.配置hadoop中的slaves
3.启动三个zookeeper:./zkServer.sh start
4.启动三个JournalNode:./hadoop-daemon.sh start journalnode
5.在其中一个namenode上格式化:hdfs namenode -format
6.把刚刚格式化之后的元数据拷贝到另外一个namenode上
a)启动刚刚格式化的namenode
b)在没有格式化的namenode上执行:hdfs namenode -bootstrapStandby
c)启动第二个namenode
7.在其中一个namenode上初始化zkfc:hdfs zkfc -formatZK
8.停止上面节点:stop-dfs.sh
9.全面启动:start-dfs.sh


浏览器node5:50070查看


文章评论