Hive如何安装配置

发布时间：2023-05-15 04:15:57

Hive是一个基于Hadoop的数据仓库工具，它可以将数据以SQL方式进行查询和分析，支持各种非结构化和半结构化数据。本文章将介绍如何在Linux系统上通过官网源码安装Hive，并配合Hadoop使用。

环境要求

- 安装好Hadoop，并确认Hadoop已经正确配置；

步骤一：下载Hive

1. 打开Apache官网，选择Hive项目，进入下载页面：https://hive.apache.org/downloads.html；

2. 点击hive-x.x.x.tar.gz下载文件，将文件下载到服务器上；

3. 在服务器上解压hive-x.x.x.tar.gz到指定目录（如：/opt），并重命名为hive。

步骤二：配置Hive

1. 打开hive/conf目录，通过vi打开hive-env.sh文件，将Hadoop配置文件夹的绝对路径加入到其中，如： HADOOP_HOME=/usr/local/hadoop；

2. 打开hive/conf目录，通过vi打开hive-site.xml文件，将以下参数添加至其中：

    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:derby:/var/lib/hive/metastore/metastore_db;create=true</value>
        <description>JDBC connect string for a JDBC metastore</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>org.apache.derby.jdbc.EmbeddedDriver</value>
        <description>Driver class name for a JDBC metastore</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>hive</value>
        <description>username to use against metastore database</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>hive</value>
        <description>password to use against metastore database</description>
      </property>
      <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
        <description>location of default database for the warehouse</description>
      </property>
      <property>
        <name>hive.exec.scratchdir</name>
        <value>/tmp/hive</value>
        <description>location of scratch directory</description>
      </property>
      <property>
        <name>hive.querylog.location</name>
        <value>/var/log/hive/queries</value>
        <description>location of Hive query log</description>
      </property>

3. 在hive目录下创建metastore_db目录，用于存放Hive的元数据信息。

步骤三：启动Hive服务

1. 执行命令：$ hive；

2. 启动成功后会进入Hive控制台，控制台会输出版本信息和当前用户信息；

3. 在控制台中输入命令： show tables；如果没有指定hive.metastore.warehouse.dir参数，将会输出错误信息，提示文件或文件夹不存在；

4. 可以通过Hive控制台进行SQL语句及查询等操作。

步骤四：使用Hive的JDBC连接Hive

可以使用JDBC访问Hive，在Java程序中可以使用JDBC来更新、查询Hive中的数据。

1. 下载JDBC驱动包，地址：https://jdbc.postgresql.org/download/postgresql-42.2.19.jar；

2. 在命令中执行以下命令，使用JDBC连接到Hive：

$ java -cp /path/to/the/above/jar:./hive-jdbc-1.2.1-standalone.jar:/usr/hdp/2.3.4.0-3485/hadoop/client/hadoop-common.jar
org.apache.hive.jdbc.HiveDriver "jdbc:hive2://localhost:10000/default" hive hive01

其中：

- /path/to/the/above/jar是postgresql-42.2.19.jar文件所在的路径；

- hive-jdbc-1.2.1-standalone.jar是Hive JDBC驱动包的名称和版本号；

- /usr/hdp/2.3.4.0-3485/hadoop/client/hadoop-common.jar是Hadoop公共库；

- localhost和10000分别是Hive服务器的IP地址和端口号；

- default是Hive的默认数据库；

- hive和hive01分别是Hive的授权用户名和密码。

步骤五：使用Hive

1. 在Hive控制台中，首先需要创建数据库，执行命令：CREATE DATABASE databasename；

2. 创建表，执行命令：CREATE TABLE tablename ( columnname datatype [comment]); 如：CREATE TABLE employee ( id INT, name STRING);

3. 加载数据到表，执行命令：LOAD DATA LOCAL INPATH 'filepath' INTO TABLE tablename；如加载文件：LOAD DATA LOCAL INPATH '/home/hadoop/data/employee.txt' INTO TABLE employee;

4. 执行查询操作，使用标准的SQL语句。

以上就是基于Hadoop的Hive安装和配置过程，通过这些步骤，可以轻松地在Linux系统上安装和使用Hive进行数据建模和分析。