第一章——hive入門(mén)教程之hello world

1. Hive簡(jiǎn)介

hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。

2. Hive的安裝

安裝hive前請(qǐng)確保已經(jīng)安裝好hadoop集群,通常使用mysql作為hive的元數(shù)據(jù)庫(kù),所以需要安裝mysql。
我的hadoop集群是用3臺(tái)虛擬機(jī)搭建的,分別是:

master1.hadoop
slave2.hadoop
slave3.hadoop

hive只需要在hadoop集群的一臺(tái)節(jié)點(diǎn)上面安裝即可。安裝步驟通常有以下幾步:
1 下載hive到本地
我的hadoop版本是2.7.2的,這里選擇了hive 2.x版本。國(guó)內(nèi)阿里的鏡像速度比較快,可以選擇這個(gè)版本(我用的版本是hive-2.1.0),地址,下載到本地后并解壓。

2 復(fù)制hive-site.xml

  • 進(jìn)入hive-2.1.0\conf目錄
  • 修改hive-default.xml.templatehive-site.xml,這個(gè)文件是hive的核心配置文件;
  • 修改hive-env.sh.templatehive-env.sh;
  • 修改hive-log4j2.properties.templatehive-log4j2.properties;
  • 修改hive-exec-log4j2.properties.templatehive-exec-log4j2.properties;

3 配置hive-site.xml
1). 修改javax.jdo.option.ConnectionURL為你自己的mysql連接,可以在本節(jié)點(diǎn)安裝mysql,也可以訪問(wèn)其它可訪問(wèn)的mysql;

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://master1.hadoop:3306/hive?createDatabaseIfNotExist=true</value>
    <description>
      JDBC connect string for a JDBC metastore.
      To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.
      For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.
    </description>
</property>
XML

注意:這里在master1.hadoop上面安裝了一個(gè)mysql,你可以使用你的本地mysql,只需把主機(jī)ip信息換一下即可。
2). 修改javax.jdo.option.ConnectionDriverNamemysql的連接驅(qū)動(dòng)

<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
</property>
XML

3). 修改javax.jdo.option.ConnectionUserNamemysql的用戶名root

<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    <description>Username to use against metastore database</description>
</property>
XML

4). 修改javax.jdo.option.ConnectionPasswordmysql的密碼:root

<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>root</value>
    <description>password to use against metastore database</description>
</property>
XML

5). 修改hive.exec.local.scratchdir為指定臨時(shí)路徑

<property>
    <name>hive.exec.local.scratchdir</name>
    <value>/tmp/hive</value>
    <description>Local scratch space for Hive jobs</description>
</property>
XML

6). 修改hive.downloaded.resources.dir為指定臨時(shí)路徑

<property>
    <name>hive.downloaded.resources.dir</name>
    <value>/tmp/hive/resources</value>
    <description>Temporary local directory for added resources in the remote file system.</description>
</property>
XML

7). 修改hive.querylog.location為指定臨時(shí)路徑

<property>
    <name>hive.querylog.location</name>
    <value>/tmp/hive</value>
    <description>Location of Hive run time structured log file</description>
</property>
XML

8). 修改hive.server2.logging.operation.log.location為指定臨時(shí)路徑

<property>
    <name>hive.server2.logging.operation.log.location</name>
    <value>/tmp/hive/operation_logs</value>
    <description>Top level directory where operation logs are stored if logging functionality is enabled</description>
</property>
XML

4 配置hive-env.sh
編輯文件vim hive-env.sh,主要配置以下幾個(gè)值:

HADOOP_HOME=/home/hadoop/hadoop-2.7.2
export HIVE_CONF_DIR=/home/hadoop/hive-2.1.0/conf
export JAVA_HOME=/home/hadoop/jdk1.8.0_73
export HIVE_HOME=/home/hadoop/hive-2.1.0
Bash

5 啟動(dòng)hive
1). 保證有執(zhí)行權(quán)限

chmod 777 /home/hadoop/hive-2.1.0/bin/*
chmod 777 /home/hadoop/hive-2.1.0/lib/*
Bash

2). 添加環(huán)境變量(root用戶下)
打開(kāi)/etc/profile,添加如下內(nèi)容

...
其它環(huán)境變量,省略...
...
export HIVE_HOME=/home/hadoop/hive-2.1.0
export PATH=HIVE_HOME/bin:PATH
Bash

3). 創(chuàng)建hdfs文件夾

  • 啟動(dòng)hdfs
  • hdfs系統(tǒng)中,創(chuàng)建/tmp/user/hive/warehouse兩個(gè)文件夾
    hdfs dfs -mkdir /tmp
    hdfs dfs -mkdir -p /user/hive/warehouse
    Bash
  • 遞歸創(chuàng)建hdfs目錄用-p參數(shù)。
    4). 初始化hive
    運(yùn)行命令:schematool -dbType mysql -initSchema

查看mysql,發(fā)現(xiàn)hive庫(kù)和表都已建好

5). 如果前面步驟配置的沒(méi)有問(wèn)題,命令行輸入hive命令即可。

hive> show databases;
OK
default
Time taken: 2.184 seconds, Fetched: 1 row(s)









作者:柯廣的網(wǎng)絡(luò)日志

微信公眾號(hào):Java大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)