Neste blog, vamos ver como construir o Spark para uma versão específica do Hadoop.
Também aprenderemos como construir o Spark com HIVE e YARN.
configurando hadoop no ubuntu
Considerando que você tem Hadoop, jdk, mvn e ir pré-instalado e pré-configurado em seu sistema.
Abrir Navegador Mozilla e baixar Faísca usando o link abaixo.
https://edureka.wistia.com/medias/k14eamzaza/
Abra o terminal.
Comando: tar -xvf Downloads / spark-1.1.1.tgz
Comando: ls
Abra o diretório spark-1.1.1.
Você pode abrir pom.xml Arquivo. Este arquivo fornece informações sobre todos os dependências você precisa.
Não o edite para evitar problemas.
Comando: cd spark-1.1.1 /
Comando: sudo gedit sbt / sbt-launch-lib.bash
Edite o arquivo como o instantâneo abaixo, salve-o e feche-o.
Estamos reduzindo a memória para evitar problemas de espaço de heap de objeto, conforme mencionado no instantâneo abaixo.
Agora, execute o comando abaixo no terminal para construir o Spark para Hadoop 2.2.0 com HIVE e YARN.
Comando: ./sbt/sbt -P fio -P colmeia -Phadoop-2.2 -D hadoop.version = 2.2.0 -D skipTests montagem
Observação: minha versão do Hadoop é 2.2.0, você pode alterá-la de acordo com a sua versão do Hadoop.
Para outras versões do Hadoop
# Apache Hadoop 2.0.5-alpha
-Dhadoop.version = 2.0.5-alpha
#Cloudera CDH 4.2.0
-Dhadoop.version = 2.0.0-cdh4.2.0
# Apache Hadoop 0.23.x
-Phadoop-0.23 -Dhadoop.version = 0.23.7
# Apache Hadoop 2.3.X
-Phadoop-2.3 -Dhadoop.version = 2.3.0
# Apache Hadoop 2.4.X
-Phadoop-2.4 -Dhadoop.version = 2.4.0
Levará algum tempo para compilar e empacotar, aguarde até que seja concluído.
Dois potes spark-assembly-1.1.1-hadoop2.2.0.jar e spark-examples-1.1.1-hadoop2.2.0.jar é criado.
Caminho de spark-assembly-1.1.1-hadoop2.2.0.jar : /home/edureka/spark-1.1.1/assembly/target/scala-2.10/spark-assembly-1.1.1-hadoop2.2.0.jar
Caminho de spark-examples-1.1.1-hadoop2.2.0.jar: /home/edureka/spark-1.1.1/examples/target/scala-2.10/spark-examples-1.1.1-hadoop2.2.0.jar
Parabéns, você construiu com sucesso o Spark for Hive & Yarn.
Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.
Postagens relacionadas:
Apache Spark com Hadoop - Por que é importante?