欢迎访问宙启技术站
智能推送

Hive如何安装配置

发布时间:2023-05-15 04:15:57

Hive是一个基于Hadoop的数据仓库工具,它可以将数据以SQL方式进行查询和分析,支持各种非结构化和半结构化数据。本文章将介绍如何在Linux系统上通过官网源码安装Hive,并配合Hadoop使用。

环境要求

- 安装好Hadoop,并确认Hadoop已经正确配置;

步骤一:下载Hive

1. 打开Apache官网,选择Hive项目,进入下载页面:https://hive.apache.org/downloads.html;

2. 点击hive-x.x.x.tar.gz下载文件,将文件下载到服务器上;

3. 在服务器上解压hive-x.x.x.tar.gz到指定目录(如:/opt),并重命名为hive。

步骤二:配置Hive

1. 打开hive/conf目录,通过vi打开hive-env.sh文件,将Hadoop配置文件夹的绝对路径加入到其中,如: HADOOP_HOME=/usr/local/hadoop;

2. 打开hive/conf目录,通过vi打开hive-site.xml文件,将以下参数添加至其中:

    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:derby:/var/lib/hive/metastore/metastore_db;create=true</value>
        <description>JDBC connect string for a JDBC metastore</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>org.apache.derby.jdbc.EmbeddedDriver</value>
        <description>Driver class name for a JDBC metastore</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>hive</value>
        <description>username to use against metastore database</description>
      </property>
      <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>hive</value>
        <description>password to use against metastore database</description>
      </property>
      <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
        <description>location of default database for the warehouse</description>
      </property>
      <property>
        <name>hive.exec.scratchdir</name>
        <value>/tmp/hive</value>
        <description>location of scratch directory</description>
      </property>
      <property>
        <name>hive.querylog.location</name>
        <value>/var/log/hive/queries</value>
        <description>location of Hive query log</description>
      </property>

3. 在hive目录下创建metastore_db目录,用于存放Hive的元数据信息。

步骤三:启动Hive服务

1. 执行命令:$ hive;

2. 启动成功后会进入Hive控制台,控制台会输出版本信息和当前用户信息;

3. 在控制台中输入命令: show tables; 如果没有指定hive.metastore.warehouse.dir参数,将会输出错误信息,提示文件或文件夹不存在;

4. 可以通过Hive控制台进行SQL语句及查询等操作。

步骤四:使用Hive的JDBC连接Hive

可以使用JDBC访问Hive,在Java程序中可以使用JDBC来更新、查询Hive中的数据。

1. 下载JDBC驱动包,地址:https://jdbc.postgresql.org/download/postgresql-42.2.19.jar;

2. 在命令中执行以下命令,使用JDBC连接到Hive:

$ java -cp /path/to/the/above/jar:./hive-jdbc-1.2.1-standalone.jar:/usr/hdp/2.3.4.0-3485/hadoop/client/hadoop-common.jar
org.apache.hive.jdbc.HiveDriver "jdbc:hive2://localhost:10000/default" hive hive01

其中:

- /path/to/the/above/jar是postgresql-42.2.19.jar文件所在的路径;

- hive-jdbc-1.2.1-standalone.jar是Hive JDBC驱动包的名称和版本号;

- /usr/hdp/2.3.4.0-3485/hadoop/client/hadoop-common.jar是Hadoop公共库;

- localhost和10000分别是Hive服务器的IP地址和端口号;

- default是Hive的默认数据库;

- hive和hive01分别是Hive的授权用户名和密码。

步骤五:使用Hive

1. 在Hive控制台中,首先需要创建数据库,执行命令:CREATE DATABASE databasename;

2. 创建表,执行命令:CREATE TABLE tablename ( columnname datatype [comment]); 如:CREATE TABLE employee ( id INT, name STRING);

3. 加载数据到表,执行命令:LOAD DATA LOCAL INPATH 'filepath' INTO TABLE tablename; 如加载文件:LOAD DATA LOCAL INPATH '/home/hadoop/data/employee.txt' INTO TABLE employee;

4. 执行查询操作,使用标准的SQL语句。

以上就是基于Hadoop的Hive安装和配置过程,通过这些步骤,可以轻松地在Linux系统上安装和使用Hive进行数据建模和分析。