Instale o Hadoop: Configurando um cluster Hadoop de nó único



Este tutorial é um guia passo a passo para instalar o cluster Hadoop e configurá-lo em um único nó. Todas as etapas de instalação do Hadoop são para a máquina CentOS.

Instale o Hadoop: Configurando um cluster Hadoop de nó único

De nossos blogs anteriores em , você deve ter uma ideia teórica sobre Hadoop, HDFS e sua arquitetura.Mas para conseguir você precisa de um bom conhecimento prático.Espero que você tenha gostado do nosso blog anterior em , agora apresentarei o conhecimento prático sobre Hadoop e HDFS. A primeira etapa é instalar o Hadoop.

Existem duas maneiras de instalar o Hadoop, ou seja, Nó único e Multi nós .





Cluster de nó único significa apenas um DataNode executando e configurando todos os NameNode, DataNode, ResourceManager e NodeManager em uma única máquina. Isso é usado para fins de estudo e teste. Por exemplo, vamos considerar um conjunto de dados de amostra dentro de um setor de saúde. Portanto, para testar se as tarefas do Oozie agendaram todos os processos, como coleta, agregação, armazenamento e processamento de dados em uma sequência adequada, usamos o cluster de nó único. Ele pode testar o fluxo de trabalho sequencial de maneira fácil e eficiente em um ambiente menor, em comparação com ambientes grandes que contêm terabytes de dados distribuídos em centenas de máquinas.

Enquanto em um Cluster de vários nós , há mais de um DataNode em execução e cada DataNode está em execução em máquinas diferentes. O cluster de vários nós é praticamente usado em organizações para análise de Big Data. Considerando o exemplo acima, em tempo real quando lidamos com petabytes de dados, eles precisam ser distribuídos por centenas de máquinas para serem processados. Assim, aqui usamos cluster de vários nós.



Neste blog, vou mostrar como instalar o Hadoop em um cluster de nó único.

Pré-requisitos

  • CAIXA VIRTUAL : é usado para instalar o sistema operacional nele.
  • SISTEMA OPERACIONAL : Você pode instalar o Hadoop em sistemas operacionais baseados em Linux. Ubuntu e CentOS são muito comumente usados. Neste tutorial, estamos usando CentOS.
  • JAVA : Você precisa instalar o pacote Java 8 em seu sistema.
  • HADOOP : Você precisa do pacote Hadoop 2.7.3.

Instale o Hadoop

Passo 1: Clique aqui para baixar o pacote Java 8. Salve este arquivo em seu diretório inicial.

Passo 2: Extraia o arquivo Java Tar.

Comando : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Instalar Hadoop - Edureka



Fig: Instalação do Hadoop - Extraindo arquivos Java

Etapa 3: Baixe o pacote Hadoop 2.7.3.

Comando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Instalação do Hadoop - Baixando o Hadoop

Passo 4: Extraia o arquivo tar do Hadoop.

Comando : tar -xvf hadoop-2.7.3.tar.gz

Fig: Instalação do Hadoop - Extraindo arquivos do Hadoop

Etapa 5: Adicione os caminhos Hadoop e Java no arquivo bash (.bashrc).

Abrir . bashrc Arquivo. Agora, adicione Hadoop e Java Path conforme mostrado abaixo.

Comando : vi .bashrc

Fig: Instalação do Hadoop - Configuração da variável de ambiente

Em seguida, salve o arquivo bash e feche-o.

tutorial de mvc da primavera para iniciantes

Para aplicar todas essas alterações ao Terminal atual, execute o comando source.

Comando : source .bashrc

Fig: Instalação do Hadoop - Atualizando variáveis ​​de ambiente

Para certificar-se de que Java e Hadoop foram instalados corretamente em seu sistema e podem ser acessados ​​por meio do Terminal, execute os comandos java -version e hadoop version.

Comando : Java-versão

Fig: Instalação do Hadoop - Verificação da versão Java

Comando : hadoopversão

Fig: Instalação do Hadoop - Verificação da versão do Hadoop

Etapa 6 : Edite o .

Comando: cd hadoop-2.7.3 / etc / hadoop /

Comando: ls

Todos os arquivos de configuração do Hadoop estão localizados em hadoop-2.7.3 / etc / hadoop diretório como você pode ver no instantâneo abaixo:

Fig: Instalação do Hadoop - Arquivos de configuração do Hadoop

Etapa 7 : Abrir core-site.xml e edite a propriedade mencionada abaixo dentro da tag de configuração:

core-site.xml informa o daemon do Hadoop onde o NameNode é executado no cluster. Ele contém as definições de configuração do núcleo do Hadoop, como as configurações de E / S que são comuns ao HDFS e MapReduce.

Comando : vi core-site.xml

Fig: Instalação do Hadoop - Configurando core-site.xml

fs.default.name hdfs: // localhost: 9000

Etapa 8: Editar hdfs-site.xml e edite a propriedade mencionada abaixo dentro da tag de configuração:

hdfs-site.xml contém definições de configuração de daemons HDFS (ou seja, NameNode, DataNode, Secondary NameNode). Também inclui o fator de replicação e o tamanho do bloco de HDFS.

Comando : vi hdfs-site.xml

Fig: Instalação do Hadoop - Configurando hdfs-site.xml

dfs.replication 1 dfs.permission false

Etapa 9 : Edite o mapred-site.xml arquivo e edite a propriedade mencionada abaixo dentro da tag de configuração:

mapred-site.xml contém definições de configuração do aplicativo MapReduce como o número de JVM que podem ser executados em paralelo, o tamanho do mapeador e do processo redutor, núcleos de CPU disponíveis para um processo, etc.

Em alguns casos, o arquivo mapred-site.xml não está disponível. Portanto, temos que criar o arquivo mapred-site.xmlusando o modelo mapred-site.xml.

Comando : cp mapred-site.xml.template mapred-site.xml

Comando : nós mapred-local.xml.

Fig: Instalação do Hadoop - Configurando mapred-site.xml

mapreduce.framework.name yarn

Etapa 10: Editar yarn-site.xml e edite a propriedade mencionada abaixo dentro da tag de configuração:

yarn-site.xml contém definições de configuração de ResourceManager e NodeManager como tamanho de gerenciamento de memória de aplicativo, a operação necessária no programa e algoritmo, etc.

Comando : vi yarn-site.xml

Fig: Instalação do Hadoop - Configurando yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Etapa 11: Editar hadoop-env.sh e adicione o caminho Java conforme mencionado abaixo:

hadoop-env.sh contém as variáveis ​​de ambiente que são usadas no script para executar o Hadoop como o caminho inicial Java, etc.

Comando : nós hadoop-env.sh

Fig: Instalação do Hadoop - Configurando hadoop-env.sh

Etapa 12: Acesse o diretório inicial do Hadoop e formate o NameNode.

Comando : CD

Comando : cd hadoop-2.7.3

Comando : bin / hadoop propósito -formato

Fig: Instalação do Hadoop - Formatando NameNode

Isso formata o HDFS via NameNode. Este comando é executado apenas pela primeira vez. Formatar o sistema de arquivos significa inicializar o diretório especificado pela variável dfs.name.dir.

php converter string para array

Nunca formate, instale e execute o sistema de arquivos Hadoop. Você perderá todos os seus dados armazenados no HDFS.

Etapa 13: Depois que o NameNode estiver formatado, vá para o diretório hadoop-2.7.3 / sbin e inicie todos os daemons.

Comando: cd hadoop-2.7.3 / sbin

Você pode iniciar todos os daemons com um único comando ou fazê-lo individualmente.

Comando: ./ start-all.sh

O comando acima é uma combinação de start-dfs.sh, start-yarn.sh E mr-jobhistory-daemon.sh

Ou você pode executar todos os serviços individualmente conforme abaixo:

Iniciar NameNode:

O NameNode é a peça central de um sistema de arquivos HDFS. Ele mantém a árvore de diretórios de todos os arquivos armazenados no HDFS e rastreia todos os arquivos armazenados no cluster.

Comando: ./hadoop-daemon.sh start purpose

Fig: Instalação do Hadoop - Iniciando NameNode

Iniciar DataNode:

Na inicialização, um DataNode se conecta ao Namenode e responde às solicitações do Namenode para diferentes operações.

Comando: ./hadoop-daemon.sh start datanode

Fig: Instalação do Hadoop - Iniciando DataNode

Inicie o ResourceManager:

ResourceManager é o mestre que controla todos os recursos de cluster disponíveis e, portanto, ajuda a gerenciar os aplicativos distribuídos em execução no sistema YARN. Seu trabalho é gerenciar cada NodeManagers e o ApplicationMaster de cada aplicativo.

Comando: ./fio-daemon.sh start resourcemanager

Fig: Instalação do Hadoop - Iniciando ResourceManager

Inicie o NodeManager:

O NodeManager em cada estrutura de máquina é o agente responsável por gerenciar os containers, monitorar o uso de seus recursos e reportar o mesmo ao ResourceManager.

Comando: ./fio-daemon.sh start nodemanager

Fig: Instalação do Hadoop - Iniciando o NodeManager

Inicie JobHistoryServer:

JobHistoryServer é responsável por atender a todas as solicitações relacionadas ao histórico de tarefas do cliente.

Comando : ./mr-jobhistory-daemon.sh start historyserver

Etapa 14: Para verificar se todos os serviços Hadoop estão ativos e em execução, execute o comando abaixo.

Comando: jps

Fig: Instalação do Hadoop - Verificando Daemons

Etapa 15: Agora abra o navegador Mozilla e vá para localhost : 50070 / dfshealth.html para verificar a interface NameNode.

Fig: Instalação do Hadoop - Iniciando WebUI

Parabéns, você instalou com êxito um cluster Hadoop de nó único de uma vez.Em nosso próximo blog de , iremos abordar como instalar o Hadoop em um cluster de vários nós também.

Agora que você entendeu como instalar o Hadoop, confira o pela Edureka, uma empresa de aprendizagem online confiável com uma rede de mais de 250.000 alunos satisfeitos espalhados por todo o mundo. O curso Edureka Big Data Hadoop Certification Training ajuda os alunos a se tornarem especialistas em HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop usando casos de uso em tempo real no varejo, mídia social, aviação, turismo, domínio financeiro.

Tem alguma questão para nós? Mencione isso na seção de comentários e entraremos em contato com você.