Hadoop学习之 章节:Hadoop配置安装
Hadoop是当前最流行的开源分布式计算框架,其主要应用于海量数据的存储和处理。本文将介绍Hadoop的配置安装。
Hadoop的配置安装需要先进行以下准备:
1. 确认所用的操作系统版本和架构,如CentOS 7 64位。
2. 下载对应版本的Hadoop安装包,一般都是从官方网站上获取。下载之前,还需要确认Hadoop的依赖库是否满足要求。
3. 在本机或虚拟机上安装JDK,因为Hadoop是基于Java开发的,需要JDK的支持。
接下来,我们来看一下Hadoop的配置安装步骤。
1. 解压Hadoop安装包
将下载的Hadoop安装包解压到指定的目录,如/home/hadoop/hadoop-3.3.1,解压方式如下:
tar -zxf hadoop-3.3.1.tar.gz
2. 设置环境变量
在.bashrc文件中添加如下环境变量:
export HADOOP_HOME=/home/hadoop/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
source .bashrc
3. 配置Hadoop
进入Hadoop安装目录下的/etc/hadoop目录,修改如下文件:
1)hadoop-env.sh
文件路径为$HADOOP_HOME/etc/hadoop/hadoop-env.sh,在该文件中设置JAVA_HOME环境变量:
export JAVA_HOME=/path/to/jdk
2)core-site.xml
文件路径为$HADOOP_HOME/etc/hadoop/core-site.xml,设置如下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
</property>
</configuration>
3)hdfs-site.xml
文件路径为$HADOOP_HOME/etc/hadoop/hdfs-site.xml,设置如下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/data/datanode</value>
</property>
</configuration>
4)mapred-site.xml
文件路径为$HADOOP_HOME/etc/hadoop/mapred-site.xml,设置如下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
5)yarn-site.xml
文件路径为$HADOOP_HOME/etc/hadoop/yarn-site.xml,设置如下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>2</value>
</property>
</configuration>
4. 格式化NameNode
在$HADOOP_HOME/bin目录下执行如下命令:
./hdfs namenode -format
5. 启动Hadoop
执行以下命令启动Hadoop(启动顺序不能变):
$HADOOP_HOME/sbin/start-dfs.sh
$HADOOP_HOME/sbin/start-yarn.sh
可以通过添加成功运行的服务(datanode、namenode、yarn)检查Hadoop的正常运行。启动后可在浏览器中访问http://localhost:50070,查看Hadoop运行情况。
至此,Hadoop的配置安装完成。
