欢迎访问宙启技术站
智能推送

VMware虚拟机怎么搭建Hadoop2.7.1分布式集群

发布时间:2023-05-16 15:45:58

Hadoop分布式集群是一个大数据处理基础平台,可以在几千台机器上运行MapReduce并存储PB级的数据。本文将介绍如何利用VMware虚拟机搭建Hadoop2.7.1分布式集群,以便于学习和开发。

首先,我们需要准备好以下工具:

1. VMware虚拟机

2. Hadoop2.7.1二进制文件

3. Ubuntu16.04镜像文件

4. JDK安装包

5. SSH客户端(PuTTY或Xshell)

步骤1 安装Ubuntu16.04虚拟机

将Ubuntu16.04镜像文件导入VMware中,创建一个新的虚拟机。为了更好的性能,建议给每个虚拟机分配至少2个CPU和4GB的RAM。

步骤2 安装JDK

在Ubuntu16.04中安装JDK,这是运行Hadoop所必需的。打开终端输入以下命令:

sudo apt-get update

sudo apt-get install openjdk-8-jdk

设置JAVA_HOME环境变量:

sudo nano /etc/environment

在文件末尾添加以下内容:

JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

保存文件,然后更新环境变量:

source /etc/environment

步骤3 安装并配置SSH

Hadoop需要使用SSH来执行分布式任务,因此需要在每个节点上安装并配置SSH。在Ubuntu终端中输入以下命令:

sudo apt-get update

sudo apt-get install ssh

sudo apt-get install rsync

sudo systemctl start ssh

测试SSH连接:

ssh localhost

步骤4 下载和配置Hadoop2.7.1

从官网下载Hadoop2.7.1二进制文件,然后解压到/opt目录下,并修改文件夹名称:

sudo tar -xzvf hadoop-2.7.1.tar.gz -C /opt/

sudo mv /opt/hadoop-2.7.1/ /opt/hadoop

配置Hadoop环境变量:

sudo nano ~/.bashrc

在文件末尾添加以下内容:

export HADOOP_HOME=/opt/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存文件,然后更新环境变量:

source ~/.bashrc

步骤5 配置Hadoop集群

1. 编辑core-site.xml

sudo nano /opt/hadoop/etc/hadoop/core-site.xml

添加以下内容:

<configuration>

<property>

    <name>fs.defaultFS</name>

    <value>hdfs://localhost:9000</value>

</property>

</configuration>

2. 编辑hdfs-site.xml

sudo nano /opt/hadoop/etc/hadoop/hdfs-site.xml

添加以下内容:

<configuration>

<property>

    <name>dfs.replication</name>

    <value>1</value>

</property>

<property>

    <name>dfs.namenode.name.dir</name>

    <value>/opt/hadoop/data/nameNode</value>

</property>

<property>

    <name>dfs.datanode.data.dir</name>

    <value>/opt/hadoop/data/dataNode</value>

</property>

</configuration>

3. 编辑mapred-site.xml

sudo cp /opt/hadoop/etc/hadoop/mapred-site.xml.template /opt/hadoop/etc/hadoop/mapred-site.xml

sudo nano /opt/hadoop/etc/hadoop/mapred-site.xml

添加以下内容:

<configuration>

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

</configuration>

4. 编辑yarn-site.xml

sudo nano /opt/hadoop/etc/hadoop/yarn-site.xml

添加以下内容:

<configuration>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

</configuration>

步骤6 运行Hadoop集群

启动Hadoop:

start-all.sh

查看Hadoop状态:

jps

如果jps命令没有输出NameNode、DataNode、SecondaryNameNode、ResourceManager和NodeManager,则可能是由于集群的某些节点启动失败。

在浏览器中输入http://localhost:8088,可以看到运行的ResourceManager UI。 在浏览器中输入http://localhost:50070,可以看到HDFS UI。

至此,我们已经成功搭建好了Hadoop2.7.1分布式集群。在实际应用中,可以通过添加更多节点来提高处理和存储能力。