Hive如何安装配置
Hive是一个基于Hadoop的数据仓库工具,它可以将数据以SQL方式进行查询和分析,支持各种非结构化和半结构化数据。本文章将介绍如何在Linux系统上通过官网源码安装Hive,并配合Hadoop使用。
环境要求
- 安装好Hadoop,并确认Hadoop已经正确配置;
步骤一:下载Hive
1. 打开Apache官网,选择Hive项目,进入下载页面:https://hive.apache.org/downloads.html;
2. 点击hive-x.x.x.tar.gz下载文件,将文件下载到服务器上;
3. 在服务器上解压hive-x.x.x.tar.gz到指定目录(如:/opt),并重命名为hive。
步骤二:配置Hive
1. 打开hive/conf目录,通过vi打开hive-env.sh文件,将Hadoop配置文件夹的绝对路径加入到其中,如: HADOOP_HOME=/usr/local/hadoop;
2. 打开hive/conf目录,通过vi打开hive-site.xml文件,将以下参数添加至其中:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby:/var/lib/hive/metastore/metastore_db;create=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>org.apache.derby.jdbc.EmbeddedDriver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hive</value>
<description>password to use against metastore database</description>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
<description>location of default database for the warehouse</description>
</property>
<property>
<name>hive.exec.scratchdir</name>
<value>/tmp/hive</value>
<description>location of scratch directory</description>
</property>
<property>
<name>hive.querylog.location</name>
<value>/var/log/hive/queries</value>
<description>location of Hive query log</description>
</property>
3. 在hive目录下创建metastore_db目录,用于存放Hive的元数据信息。
步骤三:启动Hive服务
1. 执行命令:$ hive;
2. 启动成功后会进入Hive控制台,控制台会输出版本信息和当前用户信息;
3. 在控制台中输入命令: show tables; 如果没有指定hive.metastore.warehouse.dir参数,将会输出错误信息,提示文件或文件夹不存在;
4. 可以通过Hive控制台进行SQL语句及查询等操作。
步骤四:使用Hive的JDBC连接Hive
可以使用JDBC访问Hive,在Java程序中可以使用JDBC来更新、查询Hive中的数据。
1. 下载JDBC驱动包,地址:https://jdbc.postgresql.org/download/postgresql-42.2.19.jar;
2. 在命令中执行以下命令,使用JDBC连接到Hive:
$ java -cp /path/to/the/above/jar:./hive-jdbc-1.2.1-standalone.jar:/usr/hdp/2.3.4.0-3485/hadoop/client/hadoop-common.jar org.apache.hive.jdbc.HiveDriver "jdbc:hive2://localhost:10000/default" hive hive01
其中:
- /path/to/the/above/jar是postgresql-42.2.19.jar文件所在的路径;
- hive-jdbc-1.2.1-standalone.jar是Hive JDBC驱动包的名称和版本号;
- /usr/hdp/2.3.4.0-3485/hadoop/client/hadoop-common.jar是Hadoop公共库;
- localhost和10000分别是Hive服务器的IP地址和端口号;
- default是Hive的默认数据库;
- hive和hive01分别是Hive的授权用户名和密码。
步骤五:使用Hive
1. 在Hive控制台中,首先需要创建数据库,执行命令:CREATE DATABASE databasename;
2. 创建表,执行命令:CREATE TABLE tablename ( columnname datatype [comment]); 如:CREATE TABLE employee ( id INT, name STRING);
3. 加载数据到表,执行命令:LOAD DATA LOCAL INPATH 'filepath' INTO TABLE tablename; 如加载文件:LOAD DATA LOCAL INPATH '/home/hadoop/data/employee.txt' INTO TABLE employee;
4. 执行查询操作,使用标准的SQL语句。
以上就是基于Hadoop的Hive安装和配置过程,通过这些步骤,可以轻松地在Linux系统上安装和使用Hive进行数据建模和分析。
