hadoop安装

发布时间：2023-05-18 14:18:01

Hadoop是一个开源的分布式计算系统，主要用于存储和处理大规模数据。它采用了分布式计算的思想，将数据分片后分散到多个节点上进行处理，并通过网络进行通信和协调，从而实现高效的数据存储和处理。

Hadoop的安装分为以下几个步骤：

1. 安装Java环境

Hadoop需要依赖Java环境运行，因此需要先安装Java环境。可以从官网下载Java安装包，然后按照提示进行安装。

2. 下载Hadoop压缩包

从Hadoop官网下载最新版本的Hadoop安装包，一般是以tar.gz形式压缩的文件。下载后，解压到本地目录。

3. 配置Hadoop环境变量

在安装Hadoop之前，需要先配置Hadoop的环境变量，主要是设置Hadoop的安装路径和Java环境变量。可以在/etc/profile或者~/.bashrc文件中添加以下环境变量：

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export JAVA_HOME=/usr/local/jdk

export PATH=$PATH:$JAVA_HOME/bin

其中，HADOOP_HOME是Hadoop的安装路径，JAVA_HOME是Java的安装路径。

4. 配置Hadoop集群

在Hadoop的配置文件中，需要进行一些基本设置，包括设置Hadoop集群的节点、数据存储路径、日志路径等。可以通过编辑hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四个配置文件来进行配置。

在hadoop-env.sh文件中，需要设置JAVA_HOME和HADOOP_HOME，例如：

export JAVA_HOME=/usr/local/jdk

export HADOOP_HOME=/usr/local/hadoop

在core-site.xml文件中，需要设置Hadoop集群的节点，例如：

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

其中，localhost:9000表示Hadoop的NameNode节点地址。

在hdfs-site.xml文件中，需要设置数据和日志的存储路径，例如：

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop/data/nameNode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop/data/dataNode</value>

</property>

</configuration>

其中，dfs.replication是数据的备份数量，dfs.namenode.name.dir和dfs.datanode.data.dir分别是NameNode和DataNode节点存储数据和日志的路径。

在mapred-site.xml文件中，需要设置Map和Reduce的任务数，例如：

<name>mapreduce.framework.name</name>

</property>

<name>yarn.app.mapreduce.am.resource.mb</name>

</property>

<name>mapreduce.map.memory.mb</name>

</property>

<name>mapreduce.reduce.memory.mb</name>

</property>

<name>mapreduce.map.cpu.vcores</name>

</property>

<name>mapreduce.reduce.cpu.vcores</name>

</property>

</configuration>

其中，yarn.app.mapreduce.am.resource.mb是MapReduce任务启动时占用的内存，mapreduce.map.memory.mb和mapreduce.reduce.memory.mb分别是Map和Reduce任务的内存限制，mapreduce.map.cpu.vcores和mapreduce.reduce.cpu.vcores分别是Map和Reduce任务的CPU核心数。

5. 启动Hadoop集群

Hadoop集群启动分为两种模式，一种是伪分布式模式，即所有节点都在本机上，另一种是完全分布式模式，即节点分布在多台主机上。

在伪分布式模式下，可以通过以下命令启动Hadoop集群：

$HADOOP_HOME/sbin/start-all.sh

这条命令会启动NameNode、DataNode、ResourceManager和NodeManager。

在完全分布式模式下，需要先在每个节点上安装Hadoop，并配置好Hadoop的环境变量和集群配置。然后在NameNode节点上启动ResourceManager，每个节点上启动NodeManager和DataNode。

以上就是Hadoop的安装过程，安装完毕后，可以通过各种命令和API调用Hadoop的功能，对大规模数据进行存储和处理。