Como criar um cluster Hadoop com o Amazon EMR?



Neste artigo, exploraremos o serviço AWS EMR e, no processo, aprenderemos como criar um cluster Hadoop com o Amazon EMR?

Neste artigo sobre como criar Cluster Com o Amazon EMR, veríamos como executar e dimensionar aplicativos Hadoop e Big Data com facilidade. As dicas a seguir serão abordadas neste artigo,

Continuando com isso Como criar um cluster Hadoop com o Amazon EMR?





Como criar um cluster Hadoop com o Amazon EMR?

Quando procuramos algo no Google ou Yahoo, obtemos a resposta em uma fração de segundo. Como é possível que Google, Yahoo e outros mecanismos de busca retornem os resultados tão rápido da web em constante crescimento? Os motores de busca vasculham a internet, baixam as páginas da web e criam um índice conforme mostrado abaixo. Para qualquer consulta nossa, eles usam o índice para descobrir quais são as páginas da web que contêm o texto que procuramos. Observando o índice abaixo no lado direito, podemos saber claramente que o Hadoop está lá nas páginas 1, 2 e 3 da web.

Imagem - Como criar cluster do Hadoop com Amazon EMR - EdurekaEntão o Algoritmo de PageRanking é usado com base em como as páginas são conectadas para descobrir qual página mostrar na parte superior e qual na parte inferior. No cenário abaixo, W1 é o “mais popular” porque todos estão vinculados a ele e W4 é o “menos popular”, pois ninguém está vinculando a ele. Portanto, W1 é mostrado na parte superior e W4 na parte inferior nos resultados da pesquisa.



Com a explosão das páginas da web, esses motores de busca estavam encontrando desafios para criar índices e fazer os cálculos do PageRanking. Este é o lugar onde o nascimento do Hadoop ocorreu no Yahoo e mais tarde se tornou FOSS (Software Livre e de Código Aberto) sob a ASF (Apache Software Foundation). Uma vez sob o ASF, muitas empresas começaram a se interessar pelo Hadoop e a contribuir para melhorá-lo. O Hadoop foi quem iniciou a revolução do Big Data, mas muitos outros softwares como Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume começaram a evoluir para lidar com as limitações e lacunas no Hadoop.

Os mecanismos de pesquisa da web foram os primeiros a usar o Hadoop, mas depois muitos casos de uso começaram a evoluir conforme mais e mais dados eram gerados. Vejamos o exemplo de um aplicativo de comércio eletrônico usado para recomendar livros ao usuário. Conforme o diagrama abaixo, o usuário1 comprou o livro1, o livro2 e o livro3, o usuário2 comprou alguns livros e assim por diante. Olhando de perto, podemos observar que user1 e user2 têm gostos semelhantes aos de comprar book1 e book2. Portanto, book3 pode ser recomendado para o usuário2 e book4 pode ser recomendado para o usuário1. Isso é chamado de Filtragem Colaborativa, um tipo de algoritmo de Aprendizado de Máquina. Podemos inverter o diagrama abaixo e obter livros semelhantes.

No caso acima, criamos um índice, PageRanked e recomendado ao usuário, o tamanho dos dados era pequeno e por isso pudemos visualizar os dados e inferir alguns resultados a partir deles. Conforme o tamanho dos dados fica maior a cada dia e fora de controle, é aqui que as ferramentas de Big Data como o Hadoop entram em cena.



O Hadoop resolve muitos problemas, mas instalar o Hadoop e outros softwares de Big Data nunca foi uma tarefa fácil. Há muitos parâmetros de configuração para ajustar, como integração, instalação e problemas de configuração para trabalhar. É aqui que empresas como a Cloudera, e ajuda do Databricks. Eles tornam a instalação do software de Big Data mais fácil e fornecem suporte comercial, por exemplo, digamos que algo aconteça na produção. O Amazon EMR (Elastic MapReduce) facilita o uso do Hadoop etc. O nome Elastic MapReduce é um pouco impróprio, pois o EMR também oferece suporte a outros modelos de computação distribuída, como conjuntos de dados distribuídos resilientes, e não apenas MapReduce.

operador de escopo c ++

Neste tutorial, vamos explorar como configurar um cluster EMR na nuvem AWS e no próximo tutorial, vamos explorar como executar Spark, Hive e outros programas em cima dele.

Continuando com isso Como criar um cluster Hadoop com o Amazon EMR?

Demonstração: Criando um cluster EMR na AWS

Passo 1: Vá para o Console de Gerenciamento EMR e clique em “Criar cluster”. No console, os metadados para o cluster terminado também é salvo por dois meses gratuitamente. Isso permite que o cluster encerrado seja clonado e criado novamente.

Passo 2 : Na tela de opções rápidas, clique em “Ir para opções avançadas” para especificar muito mais detalhes sobre o cluster.

Etapa 3: Na guia Opções avançadas, podemos selecionar um software diferente a ser instalado no cluster EMR. Para uma interface SQL, Hive pode ser selecionado. Para uma interface de linguagem de fluxo de dados, Pig pode ser selecionado. Para coordenação de aplicativo distribuído, ZooKeeper pode ser selecionado e assim por diante. Essa guia também nos permite adicionar etapas, o que é uma tarefa opcional. As etapas são tarefas de processamento de Big Data usando MapReduce, Pig, Hive etc. Elas podem ser adicionadas nesta guia ou posteriormente, uma vez que o cluster foi criado. Clique em “Next” para selecionar o Hardware necessário para o cluster EMR.

Passo 4: O Hadoop segue a arquitetura do trabalhador mestre, onde o mestre faz toda a coordenação, como agendar e atribuir o trabalho e verificar seu progresso, enquanto os trabalhadores fazem o trabalho real de processamento e armazenamento de dados. Um único mestre é um Ponto Único de Falha (SPOF). O Amazon EMR oferece suporte a vários mestres para alta disponibilidade (HA). A etapa anterior permite configurar um cluster multimestre em EMR.

O EMR permite dois tipos de nós, Core e Task. O nó principal é usado para processar e armazenar os dados, o nó da tarefa é usado apenas para processar os dados. Para este tutorial, podemos selecionar apenas um nó de núcleo e nenhum nó de tarefa, pois envolve menos custo para nós. Além disso, escolha Instâncias locais sobre Sob demanda como as instâncias Spot são mais baratas. O problema com as instâncias Spot é que elas podem ser encerradas pela AWS automaticamente com um aviso de dois minutos . Isso é bom por uma questão de prática e também em alguns cenários reais. As instâncias spot são encerradas automaticamente, pois têm baixa prioridade sobre outros tipos de instância. Clique em “Next”.

Etapa 5: Especifique o nome do cluster. e clique em “Avançar”. Observe que a “Proteção de finalização” é ativada por padrão, isso garante que o cluster EMR não seja excluído acidentalmente, introduzindo algumas etapas ao encerrar o cluster.

java obter a data da string

Etapa 6: Na guia, as diferentes opções de segurança para o cluster EMR são especificadas. O KeyPair precisa ser selecionado para fazer login na instância EC2. O EMR criará automaticamente as funções e grupos de segurança apropriados e os anexará aos nós mestre e de trabalho EC2. Clique em “Criar cluster”.

A criação do cluster leva alguns minutos, pois as instâncias do EC2 devem ser adquiridas e os diferentes softwares de Big Data devem ser instalados e configurados. Inicialmente, o status do cluster estaria no estado “Iniciando” e passaria para o estado “Esperando”. No estado 'Esperando', o cluster EMR está simplesmente esperando que enviemos diferentes trabalhos de processamento de Big Data, como MR, Spark, Hive etc.

Além disso, observe no console de gerenciamento do EC2 e observe que as instâncias mestre e de trabalho do EC2 devem estar em execução. Estas são as instâncias Spot que foram criadas como parte da criação do cluster EMR. O mesmo EC2 também pode ser observado na guia Hardware no console de gerenciamento EMR. Observe que na guia Hardware, o preço para as instâncias Spot EC2 é mencionado como 0,032 $ / hora. O preço das instâncias Spot muda constantemente com o tempo e é muito mais baixo do que o preço do EC2 On-Demand.

Etapa 7: Agora que o cluster EMR foi adicionado com sucesso, etapas ou tarefas de processamento de Big Data podem ser adicionadas. Vá para a guia Etapas e clique em “Adicionar Etapa” e selecione o tipo de Etapa (MR, Hive, Spark etc). Exploraremos o mesmo no próximo tutorial. Por enquanto, clique em Cancelar.

Etapa 8: Agora que vimos como iniciar o EMR, vamos ver como parar o mesmo.

Etapa 8.1: Clique em Terminar.

Etapa 8.2: Conforme mencionado nas etapas anteriores, a “Proteção de terminação” está ativada para o cluster EMR e o botão Terminar foi desabilitado. Clique em Alterar.

Etapa 8.3: Selecione o botão de opção “Desligado” e clique na marca de seleção. Agora o botão Terminate deve estar habilitado. Esta é a etapa adicional que o EMR introduziu, apenas para garantir que não excluamos acidentalmente o cluster EMR.

Observe que o cluster EMR estará no status Terminando e os EC2s serão finalizados. Finalmente, o cluster EMR será movido para o status Terminated, a partir daqui nosso faturamento com AWS pára. Certifique-se de encerrar o cluster, para não incorrer em custos adicionais de AWS.

padrões de design em php com exemplo

Conclusão

Neste tutorial, vimos como iniciar o cluster EMR dentro de alguns minutos do console da web (navegador), o mesmo pode ser automatizado usando o , SDK da AWS ou usando AWS CloudFormation . Como notado, a configuração de um cluster EMR pode ser feita em questão de minutos e o processamento de Big Data pode ser iniciado imediatamente, uma vez que o processamento é feito, a saída pode ser armazenada em S3 ou DynamoDB e então o cluster desligou para interromper o faturamento. Por causa desse modelo de preço e da facilidade de uso, o EMR é um grande sucesso entre aqueles que estão fazendo o processamento de Big Data. Não há necessidade de comprar servidores em grande quantidade, obter licenças para o software de Big Data e mantê-los. '

Então é isso pessoal, isso nos leva ao final deste artigo sobre como criar um cluster do Hadoop com o Amazon EMR?No caso de você desejar obter especialização neste assunto, Edureka criou um currículo que cobre exatamente o que você precisa para quebrar o exame de arquiteto de soluções! Você pode dar uma olhada nos detalhes do curso para Treinamento.

Em caso de dúvidas relacionadas a este blog, sinta-se à vontade para fazer perguntas na seção de comentários abaixo e teremos o maior prazer em responder o mais rápido possível.