VMware虚拟机怎么搭建Hadoop2.7.1分布式集群
Hadoop分布式集群是一个大数据处理基础平台,可以在几千台机器上运行MapReduce并存储PB级的数据。本文将介绍如何利用VMware虚拟机搭建Hadoop2.7.1分布式集群,以便于学习和开发。
首先,我们需要准备好以下工具:
1. VMware虚拟机
2. Hadoop2.7.1二进制文件
3. Ubuntu16.04镜像文件
4. JDK安装包
5. SSH客户端(PuTTY或Xshell)
步骤1 安装Ubuntu16.04虚拟机
将Ubuntu16.04镜像文件导入VMware中,创建一个新的虚拟机。为了更好的性能,建议给每个虚拟机分配至少2个CPU和4GB的RAM。
步骤2 安装JDK
在Ubuntu16.04中安装JDK,这是运行Hadoop所必需的。打开终端输入以下命令:
sudo apt-get update
sudo apt-get install openjdk-8-jdk
设置JAVA_HOME环境变量:
sudo nano /etc/environment
在文件末尾添加以下内容:
JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
保存文件,然后更新环境变量:
source /etc/environment
步骤3 安装并配置SSH
Hadoop需要使用SSH来执行分布式任务,因此需要在每个节点上安装并配置SSH。在Ubuntu终端中输入以下命令:
sudo apt-get update
sudo apt-get install ssh
sudo apt-get install rsync
sudo systemctl start ssh
测试SSH连接:
ssh localhost
步骤4 下载和配置Hadoop2.7.1
从官网下载Hadoop2.7.1二进制文件,然后解压到/opt目录下,并修改文件夹名称:
sudo tar -xzvf hadoop-2.7.1.tar.gz -C /opt/
sudo mv /opt/hadoop-2.7.1/ /opt/hadoop
配置Hadoop环境变量:
sudo nano ~/.bashrc
在文件末尾添加以下内容:
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存文件,然后更新环境变量:
source ~/.bashrc
步骤5 配置Hadoop集群
1. 编辑core-site.xml
sudo nano /opt/hadoop/etc/hadoop/core-site.xml
添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2. 编辑hdfs-site.xml
sudo nano /opt/hadoop/etc/hadoop/hdfs-site.xml
添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop/data/nameNode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop/data/dataNode</value>
</property>
</configuration>
3. 编辑mapred-site.xml
sudo cp /opt/hadoop/etc/hadoop/mapred-site.xml.template /opt/hadoop/etc/hadoop/mapred-site.xml
sudo nano /opt/hadoop/etc/hadoop/mapred-site.xml
添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4. 编辑yarn-site.xml
sudo nano /opt/hadoop/etc/hadoop/yarn-site.xml
添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
步骤6 运行Hadoop集群
启动Hadoop:
start-all.sh
查看Hadoop状态:
jps
如果jps命令没有输出NameNode、DataNode、SecondaryNameNode、ResourceManager和NodeManager,则可能是由于集群的某些节点启动失败。
在浏览器中输入http://localhost:8088,可以看到运行的ResourceManager UI。 在浏览器中输入http://localhost:50070,可以看到HDFS UI。
至此,我们已经成功搭建好了Hadoop2.7.1分布式集群。在实际应用中,可以通过添加更多节点来提高处理和存储能力。
