VMware虚拟机怎么搭建Hadoop2.7.1分布式集群

发布时间：2023-05-16 15:45:58

Hadoop分布式集群是一个大数据处理基础平台，可以在几千台机器上运行MapReduce并存储PB级的数据。本文将介绍如何利用VMware虚拟机搭建Hadoop2.7.1分布式集群，以便于学习和开发。

首先，我们需要准备好以下工具：

1. VMware虚拟机

2. Hadoop2.7.1二进制文件

3. Ubuntu16.04镜像文件

4. JDK安装包

5. SSH客户端（PuTTY或Xshell）

步骤1 安装Ubuntu16.04虚拟机

将Ubuntu16.04镜像文件导入VMware中，创建一个新的虚拟机。为了更好的性能，建议给每个虚拟机分配至少2个CPU和4GB的RAM。

步骤2 安装JDK

在Ubuntu16.04中安装JDK，这是运行Hadoop所必需的。打开终端输入以下命令：

sudo apt-get update

sudo apt-get install openjdk-8-jdk

设置JAVA_HOME环境变量：

sudo nano /etc/environment

在文件末尾添加以下内容：

JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

保存文件，然后更新环境变量：

source /etc/environment

步骤3 安装并配置SSH

Hadoop需要使用SSH来执行分布式任务，因此需要在每个节点上安装并配置SSH。在Ubuntu终端中输入以下命令：

sudo apt-get update

sudo apt-get install ssh

sudo apt-get install rsync

sudo systemctl start ssh

测试SSH连接：

ssh localhost

步骤4 下载和配置Hadoop2.7.1

从官网下载Hadoop2.7.1二进制文件，然后解压到/opt目录下，并修改文件夹名称：

sudo tar -xzvf hadoop-2.7.1.tar.gz -C /opt/

sudo mv /opt/hadoop-2.7.1/ /opt/hadoop

配置Hadoop环境变量：

sudo nano ~/.bashrc

在文件末尾添加以下内容：

export HADOOP_HOME=/opt/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存文件，然后更新环境变量：

source ~/.bashrc

步骤5 配置Hadoop集群

1. 编辑core-site.xml

sudo nano /opt/hadoop/etc/hadoop/core-site.xml

添加以下内容：

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

2. 编辑hdfs-site.xml

sudo nano /opt/hadoop/etc/hadoop/hdfs-site.xml

添加以下内容：

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/opt/hadoop/data/nameNode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/opt/hadoop/data/dataNode</value>

</property>

</configuration>

3. 编辑mapred-site.xml

sudo cp /opt/hadoop/etc/hadoop/mapred-site.xml.template /opt/hadoop/etc/hadoop/mapred-site.xml

sudo nano /opt/hadoop/etc/hadoop/mapred-site.xml

添加以下内容：

<name>mapreduce.framework.name</name>

</property>

</configuration>

4. 编辑yarn-site.xml

sudo nano /opt/hadoop/etc/hadoop/yarn-site.xml

添加以下内容：

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

步骤6 运行Hadoop集群

启动Hadoop：

start-all.sh

查看Hadoop状态：

jps

如果jps命令没有输出NameNode、DataNode、SecondaryNameNode、ResourceManager和NodeManager，则可能是由于集群的某些节点启动失败。

在浏览器中输入http://localhost:8088，可以看到运行的ResourceManager UI。在浏览器中输入http://localhost:50070，可以看到HDFS UI。

至此，我们已经成功搭建好了Hadoop2.7.1分布式集群。在实际应用中，可以通过添加更多节点来提高处理和存储能力。