Cloudera Hadoop: Introdução à distribuição CDH



Este blog da Edureka no Tutorial do Cloudera Hadoop lhe dará uma visão completa dos diferentes componentes do Cloudera como Cloudera Manager, Parcels, Hue etc

Com a crescente demanda por Big Data, e o Apache Hadoop estáemo coração da revolução, mudou a maneira como organizamos e calculamos os dados. A necessidade de as organizações alinharem o Hadoop com suas necessidades de negócios alimentou o surgimento das distribuições comerciais. Distribuições comerciais do Hadoop geralmente são embaladas com recursos, projetados para agilizar a implantação do Hadoop. O Cloudera Hadoop Distribution fornece uma plataforma escalável, flexível e integrada que facilita o gerenciamento de volumes e variedades de dados em rápido crescimento em sua empresa.

Neste blog sobre Cloudera Hadoop Distribution, abordaremos os seguintes tópicos:





Cloudera Hadoop: introdução ao Hadoop

Hadoop é uma estrutura de código aberto Apache que armazena e processa Big Data em um ambiente distribuídoatravés decluster usando modelos de programação simples. O Hadoop fornece computação paralela no topo do armazenamento distribuído.Para saber mais sobre o Hadoop em detalhes em você pode se referir a isso

Após esta breve introdução ao Hadoop, deixe-me explicar os diferentes tipos de distribuição do Hadoop.



Cloudera Hadoop: distribuições Hadoop

Como o Apache Hadoop é um software livre, muitas empresas desenvolveram distribuições que vão além do código-fonte aberto original. Isso é muito semelhante a distribuições Linux como RedHat, Fedora e Ubuntu. Cada uma das distribuições do Linux oferece suporte a suas próprias funcionalidades e recursos, como interface de usuário amigável no Ubuntu. Similarmente, chapéu vermelho é popular dentro das empresas porque oferece suporte e também fornece ideologia para fazer alterações em qualquer parte do sistema à vontade. A Red Hat o livra de problemas de compatibilidade de software. Isso geralmente é um grande problema para os usuáriosque estão em transição do Windows.

Da mesma forma, existem 3 tipos principais de distribuições do Hadoop que têm seu próprio conjunto de funcionalidades e recursos e são construídos sob o HDFS básico.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Distribuição Cloudera Hadoop

Cloudera é a tendência do mercado no espaço do Hadoop e é o primeiro a lançar a distribuição comercial do Hadoop. Ele oferece serviços de consultoria para preencher a lacuna entre - “o que o Apache Hadoop fornece” e “o que as organizações precisam”.

A Distribuição Cloudera é:

  • Rápido para negócios : De análises a ciência de dados e tudo mais, o Cloudera oferece o desempenho de que você precisa para desbloquear o potencial de dados ilimitados.
  • Torna o Hadoop fácil de gerenciar : Com o Cloudera Manager, os assistentes automatizados permitem implantar rapidamente seu cluster, independentemente da escala ou do ambiente de implantação.
  • Seguro sem concessões: Atende às rigorosas necessidades de segurança e conformidade de dados sem sacrificar a agilidade dos negócios. Cloudera oferece uma abordagem integrada para segurança e governança de dados.

Horton-Works Distribuição

A Horton-Works Data Platform (HDP) é uma plataforma totalmente aberta projetada para manipular dados de várias fontes e formatos. A plataforma inclui várias ferramentas Hadoop, como o Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive e componentes adicionais.

Ele também oferece suporte a recursos como:

  • HDP faz Hive Mais rápido através de seu novo projeto Stinger.
  • HDP evita o aprisionamento do fornecedor ao se comprometer com uma versão bifurcada do Hadoop.
  • HDP está focado em melhorar o usabilidade da plataforma Hadoop.

Distribuição MapR

MapR é um provedor de soluções Hadoop focado em plataforma, assim como HortonWorks e Cloudera. MapR integra seu próprio sistema de banco de dados, conhecido como MapR-DB, enquanto oferece serviços de distribuição Hadoop. O MapR-DB é considerado de quatro a sete vezes mais rápido do que o banco de dados Hadoop de estoque, ou seja, o HBase, que é executado em outras distribuições.

Ele tem seus recursos intrigantes, como:

  • É a única distribuição do Hadoop que inclui Pig, Hive e Sqoop sem nenhuma dependência Java - uma vez que depende do MapR-File System.
  • MapR é a distribuição do Hadoop mais pronta para produção, com muitos aprimoramentos que o tornam mais amigável, rápido e confiável.

Agora vamos discutir a distribuição do Cloudera Hadoop em detalhes.

Inscreva-se em nosso canal no YouTube para obter novas atualizações ...

Cloudera Hadoop: distribuição de Cloudera

Cloudera é o player mais conhecido no espaço do Hadoop a lançar a primeira distribuição comercial do Hadoop.

Fig: Distribuição Cloudera Hadoop

O Cloudera Hadoop Distribution é compatível com o seguinte conjunto de recursos:

  1. O CDH da Cloudera compreende todos os componentes de código aberto, visa implantações de classe empresarial e é uma das distribuições comerciais mais populares do Hadoop.
  2. Conhecida por suas inovações, a Cloudera foi a primeira a oferecer SQL para Hadoop com o seu Impala motor de consulta.
  3. O console de gerenciamento - Cloudera Manager , é fácil de usar e implementar com a rica interface do usuário exibindo todas as informações do cluster de maneira organizada e limpa.
  4. No CDH, você pode adicionar serviços ao cluster ativo e em execução sem qualquer interrupção.
  5. Outras adições do Cloudera incluem segurança, interface do usuário e interfaces para integração com aplicativos de terceiros.
  6. CDH fornece Modelos de Nó ou seja, permite a criação de um grupo de nós em um cluster Hadoop com configuração variada. Ele erradica o uso da mesma configuração em todo o cluster do Hadoop.
  7. Também suporta:
    • Confiabilidade
      Os fornecedores de Hadoop agem prontamente em resposta sempre que um bug é detectado. Com a intenção de tornar as soluções comerciais mais estáveis, os patches e correções são implantados imediatamente.
    • Apoio, suporte
      Os fornecedores do Cloudera Hadoop fornecem orientação técnica e assistência que torna mais fácil para os clientes adotar o Hadoop para tarefas de nível empresarial e aplicativos de missão crítica.

    • Integridade
      Os fornecedores de Hadoop combinam suas distribuições com várias outras ferramentas complementares que ajudam os clientes a personalizar o aplicativo Hadoop para atender a suas tarefas específicas.

As distribuições da Cloudera vêm com 2 tipos diferentes de edições.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Agora vamos olhar as diferenças entre eles.

def __init __ (self)
Recursos Cloudera-Express Cloudera-Enterprise
Gestão de Cluster
1. Gerenciamento de Multi-Clustersimsim
2. Gestão de recursossimsim
Desdobramento, desenvolvimento
1. Suporte para CDH 4 e 5simsim
2. Atualização contínua do CDHNãosim
Gerenciamento de Serviço e Configuração
1. Gerenciar HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark e serviços Accumulosimsim
2. Reinicialização contínua de serviçosNãosim
Segurança
1. Autenticação LDAPNãosim
2. Autenticação SAMLNãosim
Monitoramento e Diagnóstico
1. História da Saúdesimsim
Gestão de Alerta
1. Alerta via e-mailsimsim
2. Alerta via SNMPNãosim
Recursos avançados de gerenciamento
1. Backup e recuperação automatizadosNãosim
2. Navegação e pesquisa de arquivosNãosim
3. Relatórios de uso de MapReduce, Impala, HBase, YarnNãosim

Cloudera Hadoop: Gerente da Cloudera

De acordo com Cloudera, o Cloudera Manager é a melhor maneira de instalar , configurar , gerir e monitor a pilha do Hadoop.

Fornece:

  1. Implantação e configuração automatizadas
  2. Monitoramento e relatórios personalizáveis
  3. Solução de problemas robusta sem esforço
  4. Zero - manutenção de tempo de inatividade

Obtenha conhecimento aprofundado sobre Cloudera Hadoop e suas várias ferramentas

Demonstração do Cloudera Manager

Vamos explorar o Cloudera Manager.

1. A figura abaixo mostra o número de serviços que estão em execução no Cloudera Manager. Você também pode ver os gráficos sobre o uso da CPU do cluster, uso de E / S do disco, etc.

Fig: Página inicial do Cloudera Manager

2. A imagem abaixo demonstra o cluster HBase. Ele fornece tabelas e gráficos sobre as condições de funcionamento do servidor HBase REST em execução.

Fig: Condições de saúde do servidor HBase

3. Agora, vamos dar uma olhada na guia Instâncias do cluster HBase, onde você pode verificar o status e a configuração de IP.

Fig: Status e endereço IP do Host Server do cluster HBase

4. Em seguida, você tem a guia Configuração. Aqui você pode ver todos os parâmetros de configuração e alterar seus valores.

Fig: Configuração do cluster HBase

Agora, vamos entender o que são Parcels em Cloudera.

Cloudera Hadoop: pacotes

Um pacote é um formato de distribuição binário que contém os arquivos do programa, junto com metadados adicionais usados ​​pelo Cloudera Manager.

Os pacotes são independentes e instalados em um diretório com versão, o que significa que várias versões de um determinado serviço podem ser instaladas lado a lado.

Abaixo estão os benefícios de usar o Parcel:

  • Ele fornece distribuição de CDH como um único objeto, ou seja, em vez de ter um pacote separado para cada parte do CDH, os pacotes têm apenas um único objeto para instalar.

  • Ele oferece consistência interna (como o CDH completo é distribuído como um único pacote, todos os componentes do CDH são combinados e não haverá risco de partes diferentes virem de versões diferentes do CDH).

  • Você pode instalar, atualizar, fazer downgrade, distribuir e ativar os pacotes no CDH usando apenas alguns cliques.

Agora, vamos ver como instalar e ativar o serviço Kafka no CDH usando Parcels.

  1. Vá para a página inicial do gerenciador de Cloudera >> Hosts >> Parcels conforme mostrado abaixo

    Fig: Seleção de parcelas dos anfitriões

2. Se você não encontrar Kafka na lista de pacotes, você pode adicionar o pacote à lista.

  1. Encontre o pacote da versão Kafka que deseja usar. Se você não o vir, pode adicionar o repositório de pacotes à lista.
  2. Encontre o pacote para a versão do Kafka que deseja instalar - Distribuição Cloudera de versões do Apache Kafka .
    A figura abaixo demonstra o mesmo.

Fig: Caminho do repositório para o pacote.

3. Copie o link conforme mostrado na figura acima e adicione-o ao Repositório de Pacotes Remoto conforme mostrado abaixo.

Fig: adição do caminho Kafka do repositório

Quatro.Depois de adicionar o caminho, o Kafka estará pronto para download. Você pode apenas clicar no botão de download e baixar o Kafka.

Fig: Baixando o Kafka

5. Depois de fazer o download do Kafka, tudo o que você precisa fazer é distribuí-lo e ativá-lo.

Fig: Ativando o Kafka

Depois de ativado, você pode ver o Kafka na guia de serviços do gerenciador Cloudera.

Fig: serviço Kafka

Cloudera Hadoop: Criando um fluxo de trabalho Oozie

Criar um fluxo de trabalho escrevendo manualmente o código XML e depois executando-o é complicado. Você pode referir isto Agendando o trabalho Oozie blog, para saber sobre a abordagem tradicional.

Você pode ver a imagem abaixo, onde escrevemos um arquivo XML para criar um fluxo de trabalho simples do Oozie. Fig: Criando um fluxo de trabalho Oozie usando uma abordagem tradicional

Como você pode ver, até mesmo para criar um agendador Oozie simples, tivemos que escrever um código XML enorme, o que é demorado, e depurar cada linha se torna complicado. Para superar isso, o Cloudera Manager introduziu um novo recurso chamado Matiz que fornece uma GUI e recursos simples de arrastar e soltar para criar e executar fluxos de trabalho do Oozie.

Agora vamos ver como o Hue executa a mesma tarefa de uma forma simplificada.

Antes de criar um fluxo de trabalho, vamos primeiro criar arquivos de entrada, ou seja, clickstream.txt e user.txt.
No arquivo user.txt, temos a Id do usuário, Nome, Idade, País, Sexo conforme mostrado abaixo. Precisamos desse arquivo de usuário para saber as contagens de usuários e cliques no URL (mencionado no arquivo clickstream) com base na ID do usuário.

Fig: Criando um arquivo de texto

Para saber o número de cliques do usuário em cada URL, temos um clickstream contendo o ID do usuário e o URL.

Fig: arquivo Clickstream

Vamos escrever as consultas no arquivo de script.

Fig: Arquivo de script

Depois de criar o arquivo do usuário, o arquivo de sequência de cliques e o arquivo de script, podemos prosseguir e criar o fluxo de trabalho do Oozie.

1. Você pode simplesmente arrastar e soltar o fluxo de trabalho do Oozie conforme mostrado na imagem.

Fig: Recurso de arrastar e soltar para criar o fluxo de trabalho do Oozie

2. Logo após cancelar sua ação, você deve especificar os caminhos para o arquivo de script e adicionar os parâmetros mencionados no arquivo de script. Aqui você precisa adicionar os parâmetros OUTPUT, CLICKSTREAM e USER e especificar o caminho para cada um dos parâmetros.

Fig: Adicionando um arquivo de script e os parâmetros necessários para executar a ação

3. Depois de especificar os caminhos e adicionar os parâmetros, basta salvar e enviar o fluxo de trabalho conforme mostrado na imagem abaixo.

Fig: Salvando e enviando a ação Oozie

4. Depois de enviar a tarefa, seu trabalho está concluído. A execução e as demais etapas são cuidadas por Hue.

como funciona o casting em java

Fig: Status de execução do trabalho Oozie

5Agora que executamos o trabalho do Oozie, vamos dar uma olhada na guia de ação. Ele contém o ID do usuário e o status do fluxo de trabalho. Ele também mostra os códigos de erro, se houver, o horário de início e término do item de ação.

Fig: Elementos presentes na guia de ação do fluxo de trabalho do Oozie

6. Ao lado da guia de ação, está a guia de detalhes. Nela, podemos ver a hora de início e a hora da última modificação do trabalho.

Fig: Detalhes do fluxo de trabalho do Oozie.

7. Ao lado da guia Detalhes, temos a guia Configuração do fluxo de trabalho.

Fig: Definições de configuração do fluxo de trabalho do Oozie

7. Ao executar o item de ação, se houver algum erro, ele será listado na guia Log. Você pode consultar as instruções de erro e depurá-lo de acordo.

Fig: Arquivo de log que contém códigos de erro e declarações de erro

8. Aqui está o código XML do fluxo de trabalho gerado automaticamente pelo Hue.

Fig: código XML do fluxo de trabalho Oozie

9,1 Como você já especificou o caminho para o diretório de saída na etapa 2, aqui você tem o diretório de saída no navegador HDFS conforme mostrado abaixo.

Fig: Diretório de saída do navegador HDFS

9.2 Depois de clicar no diretório de saída, você encontrará um arquivo de texto chamado output.txt e esse arquivo de texto contém a saída real, conforme mostrado na figura abaixo.

Fig: Texto de saída final

É assim que o Hue simplifica nosso trabalho, fornecendo as opções de arrastar e soltar para criar um fluxo de trabalho Oozie.

Espero que este blog tenha sido útil para compreender a distribuição do Cloudera e os diferentes componentes do Cloudera.

Quer participar da revolução do Big Data?

Agora que você entendeu o Cloudera Hadoop Distribution confira o pela Edureka, uma empresa de aprendizagem online confiável com uma rede de mais de 250.000 alunos satisfeitos espalhados por todo o mundo. O curso Edureka Big Data Hadoop Certification Training ajuda os alunos a se tornarem especialistas em HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop usando casos de uso em tempo real no varejo, mídia social, aviação, turismo, domínio financeiro.

Tem alguma questão para nós? Mencione isso na seção de comentários e entraremos em contato com você.