Instalação do SQOOP

Sqoop é um software Open Source da Apache Software Foundation projetado para executar no ecossistema hadoop para transferir dados entre Hadoop e bancos de dados relacionais ou mainframes. O Sqoop pode ser usado para importar dados de um sistema de gerenciamento de banco de dados relacional (RDBMS), como MySQL, Oracle, MSSQL, PostgreSQL ou um mainframe para o Sistema de arquivos distribuídos do Hadoop (HDFS), transformar os dados usando Hadoop MapReduce e exportar os dados de volta ao RDBMS.

O Sqoop automatiza a maior parte desse processo. O Sqoop usa MapReduce para importar e exportar dados, o que fornece operação em paralelo, bem como tolerância a falhas.

Vamos instalar o Sqoop no mesmo caminho onde já temos nossos binários Hadoop e arquivos de configuração /srv. O sqoop é um wrapper que executa o script bin/hadoop fornecido com o Hadoop. Então, antes de iniciar a instalação do SQOOP, verificamos se as variáveis de ambiente $HADOOP_HOME, $HADOOP_COMMON_HOME, $ HADOOP_MAPRED_HOME, $HADOOP_CONF_DIR estão configuradas. Caso tenha seguido este blog desde o inicio elas já devem estar configuradas no caminho da instalação do Hadoop.

Obtenha a versão estável mais recente do Sqoop a partir de:
http://www-us.apache.org/dist/sqoop/1.4.6/

Faça login no namenode01 e siga as etapas de instalação como abaixo:

hadoop@hadoop02:~$ cd /srv
hadoop@hadoop02:/srv$ sudo wget http://www-us.apache.org/dist/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
hadoop@hadoop02:/srv$ sudo tar -xzvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
hadoop@hadoop02:/srv$ sudo ln -s $(pwd)/sqoop-1.4.6.bin__hadoop-2.0.4-alpha /srv/sqoop
hadoop@hadoop02:/srv$ sudo chown -R hadoop:hadoop sqoop-1.4.6.bin__hadoop-2.0.4-alpha
hadoop@hadoop02:/srv$ sudo rm sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

Configurar as variáveis de ambiente SQOOP no arquivo .bashrc. Adicione as linhas abaixo, salve e encerre.

hadoop@hadoop02:/srv$ vi ~/.bashrc
[...]
# Define as variaveis do SQOOP
export SQOOP_HOME=/srv/sqoop
export PATH=$PATH:$SQOOP_HOME/bin
[...]

Execute o comando source ~/.bashrc para reler as variaveis de ambiente.

hadoop@hadoop02:/srv$ source ~/.bashrc

 

Futuramente, iremos baixar e mover arquivos JDBC jar para bancos de dados MySQL para a biblioteca Sqoop. No próximo artigo, vamos extrair dados do MySQL usando o Sqoop e colocá-los no cluster HDFS e nas tabelas HIVE.

hadoop@hadoop02:/srv$ cd $SQOOP_HOME
hadoop@hadoop02:/srv/sqoop$ wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.45.tar.gz
hadoop@hadoop02:/srv/sqoop$ tar -xzf mysql-connector-java-5.1.45.tar.gz
hadoop@hadoop02:/srv/sqoop$ mv mysql-connector-java-5.1.45/mysql-connector-java-5.1.45-bin.jar $SQOOP_HOME/lib/
hadoop@hadoop02:/srv/sqoop$ rm -rf mysql-connector-java-5.1.45
hadoop@hadoop02:/srv/sqoop$ rm mysql-connector-java-5.1.45.tar.gz

Finalmente, instalamos e configuramos o SQOOP. Na próxima série de artigos, veremos o Sqoop em ação. Vamos importar dados do banco de dados relacional para o HIVE usando o SQOOP.

Douglas Ribas de Mattos
E-mail: douglasmattos0@gmail.comdouglasmattos0@gmail.com
Github: https://github.com/douglasmattos0
LinkedIn: https://www.linkedin.com/in/douglasmattos0/

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *