Hadoop 2.0 - Perguntas frequentes



O interesse no Hadoop aumentou muito nos últimos anos. Este post responde às suas perguntas e esclarece muitas dúvidas sobre o Hadoop 2.0 e seu uso.

Esta é uma postagem de acompanhamento com resposta a perguntas frequentes durante o webinar público de edureka! em .

Perguntas frequentes sobre o Hadoop

Deepak:





O que é Hadoop?
Apache Hadoop é uma estrutura de software de código aberto para armazenamento e processamento em grande escala de conjuntos de dados em clusters de hardware comum. É uma estrutura de software de gerenciamento de dados de código aberto com armazenamento escalável e processamento distribuído. Ele está sendo criado e usado por uma comunidade global de colaboradores e usuários.

Leia mais em nossa postagem do blog Hadoop e .



Pesquisa:

Quais são os casos de uso de big data no setor de viagens, transporte e companhias aéreas?

Ensolarado:



Você pode nos indicar algum exemplo da vida real de implementação do Hadoop que possamos estudar?
Nós somos vivosdoem uma era de crescente congestionamento no horário de pico. Os operadores de transporte estão constantemente procurando encontrar maneiras econômicas de fornecer seus serviços, mantendo sua frota de transporte em boas condições. O uso de Big Data Analytics neste domínio pode ajudar a organização com:

  • Otimização de rota
  • Análise geoespacial
  • Padrões de tráfego e congestionamento
  • Manutenção de ativos
  • Gerenciamento de receita (ou seja, companhia aérea)
  • Gestão de inventário
  • Conservação de combustível
  • Marketing direcionado
  • Lealdade do consumidor
  • Previsão de capacidade
  • Desempenho e otimização da rede

Poucos casos de uso do mundo real são:
para) Determinando custos de voo
b) Modelagem de Previsão para Logística de Estoque
c) Orbitz Worldwide - Padrões de Compra do Cliente
d) Seis implantações Hadoop em superescala
é) Hadoop - mais do que adiciona
f) Hadoop na empresa

Você pode aprender mais sobre as implementações do Hadoop Real-world em:

Hirdesh:

O Hadoop tem tudo a ver com manipulação e processamento de dados? Como vamos para Reporting and Visual Analytics. O Qlikview, Tableau pode ser usado em cima do Hadoop?
Os principais componentes do Hadoop, HDFS e MapReduce, tratam de armazenamento e processamento de dados. HDFS para armazenamento e MapReduce para processamento. Mas os componentes principais do Hadoop, como Pig e Hive, são usados ​​para análises. Para Visual Reports Tableau, o QlikView pode ser conectado ao Hadoop for Visual Reporting.

Amit:

Hadoop vs. mongoDB
O MongoDB é usado como o armazenamento de dados em tempo real “operacional”, enquanto o Hadoop é usado para processamento e análise de dados em lote offline.
mongoDB é um armazenamento de dados orientado a documentos e sem esquema que pode ser usado em um aplicativo da web como back-end em vez de RDBMS como o MySQL, enquanto o Hadoop é usado principalmente como armazenamento de expansão e processamento distribuído para grande quantidade de dados.

Leia mais em nosso Postagem do blog mongoDB e Hadoop .

Aqui:

O Apache Spark faz parte do Hadoop? ?
Apache Spark é um mecanismo rápido e geral para processamento de dados em grande escala. O Spark é mais rápido e oferece suporte ao processamento In-Memory. O mecanismo de execução do Spark amplia o tipo de cargas de trabalho de computação que o Hadoop pode manipular e pode ser executado no cluster YARN do Hadoop 2.0. É um sistema de estrutura de processamento que permite armazenar objetos In-Memory (RDD) junto com a capacidade de processar esses objetos usando fechamentos Scala. Suporta processamento de Graph, Data Warehouse, Machine Learning e Stream.

o que é chef e fantoche

Se você tiver um cluster Hadoop 2, poderá executar o Spark sem a necessidade de instalação. Caso contrário, o Spark é fácil de executar autônomo ou em EC2 ou Mesos. Ele pode ler de HDFS, HBase, Cassandra e qualquer fonte de dados Hadoop.

Leia mais no Spark Aqui .

Prasad:

O que é Apache Flume?
Apache Flume é um sistema distribuído, confiável e disponível para coletar, agregar e mover com eficiência grandes quantidades de dados de log de muitas fontes diferentes para uma fonte de dados centralizada.

Amit:

Bancos de dados SQL vs NO-SQL
Os bancos de dados NoSQL são bancos de dados de última geração e, na maioria das vezes, abordam alguns dos pontos

  • não relacional
  • distribuído
  • Código aberto
  • horizontalmente escalável

Freqüentemente, mais características se aplicam, como livre de esquema, suporte de replicação fácil, API simples, eventualmente consistente / BASE (não ACID), uma grande quantidade de dados e muito mais. Por exemplo, alguns dos diferenciadores são:

  • Os bancos de dados NoSQL aumentam horizontalmente, adicionando mais servidores para lidar com cargas maiores. Os bancos de dados SQL, por outro lado, geralmente aumentam verticalmente, adicionando mais e mais recursos a um único servidor conforme o tráfego aumenta.
  • Os bancos de dados SQL exigiam que você definisse seus esquemas antes de adicionar qualquer informação e dados, mas os bancos de dados NoSQL são livres de esquema e não exigem definição de esquema antecipadamente.
  • Os bancos de dados SQL são baseados em tabelas com linhas e colunas seguindo os princípios RDBMS, enquanto os bancos de dados NoSQL são documentos, pares de valores-chave, gráficos ou armazenamentos de colunas largas.
  • Os bancos de dados SQL usam SQL (linguagem de consulta estruturada) para definir e manipular os dados. No banco de dados NoSQL, as consultas variam de um banco de dados para outro.

Bancos de dados SQL populares: MySQL, Oracle, Postgres e MS-SQL
Popular Bancos de dados NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j e CouchDB

Revise nossos blogs em Hadoop e NoSQL bancos de dados e vantagens de um banco de dados:

Koteswararao:

O Hadoop tem uma tecnologia de cluster embutida?
Um Hadoop Cluster usa arquitetura Master-Slave. Consiste em um único mestre (NameNode) e um cluster de escravos (DataNodes) para armazenar e processar dados. O Hadoop foi projetado para ser executado em um grande número de máquinas que não compartilham memória ou discos. Esses DataNodes são configurados como Cluster usando . O Hadoop usa um conceito de replicação para garantir que pelo menos uma cópia dos dados esteja disponível no cluster o tempo todo. Como há várias cópias de dados, os dados armazenados em um servidor que fica offline ou morre podem ser replicados automaticamente a partir de uma cópia válida.

Dinesh:

O que é um trabalho no Hadoop? O que tudo pode ser realizado por meio de um trabalho?
No Hadoop, um trabalho é um programa MapReduce para processar / analisar os dados. O termo MapReduce na verdade se refere a duas tarefas separadas e distintas que os programas Hadoop executam. A primeira é a tarefa Map, que pega um conjunto de dados e o converte em outro conjunto de dados intermediários, onde os elementos individuais são divididos em pares de chave-valor. A segunda parte de um MapReduce Job, a tarefa Reduce, obtém a saída de um mapa como entrada e combina os pares de valor-chave em um conjunto menor de par de valor-chave agregado. Como a sequência do nome MapReduce indica, a tarefa Reduzir é sempre executada após a conclusão das tarefas de Mapa. Leia mais sobre MapReduce Job .

Sukruth:

O que é especial sobre NameNode ?
O NameNode é o coração de um sistema de arquivos HDFS. Ele mantém os metadados, como a árvore de diretório de todos os arquivos no sistema de arquivos e rastreia onde no cluster os dados do arquivo são mantidos. Os dados reais são armazenados em DataNodes como blocos HDFS.
Os aplicativos cliente falam com o NameNode sempre que desejam localizar um arquivo ou sempre que desejam adicionar / copiar / mover / excluir um arquivo. O NameNode responde às solicitações bem-sucedidas, retornando uma lista de servidores DataNodes relevantes onde os dados residem. Leia mais sobre Arquitetura HDFS .

converter string para data java

Dinesh:

Quando o Hadoop 2.0 foi lançado no mercado?
Apache Software Foundation (ASF), o grupo de código aberto que gerencia o Hadoop Development, anunciou em seu blog em 15 de outubro de 2013 que o Hadoop 2.0 agora está geralmente disponível (GA). Este anúncio significa que, após uma longa espera, o Apache Hadoop 2.0 e o YARN agora estão prontos para implantação de produção. Mais em Blog.

Dinesh:

Quais são os poucos exemplos de aplicativo de Big Data não MapReduce?
MapReduce é ótimo para muitos aplicativos para resolver problemas de Big Data, mas não para todos os outros modelos de programação que atendem melhor aos requisitos, como processamento de gráfico (por exemplo, Google Pregel / Apache Giraph) e modelagem iterativa com Message Passing Interface (MPI).

Marish:

Como os dados são organizados e indexados no HDFS?
Os dados são divididos em blocos de 64 MB (configuráveis ​​por um parâmetro) e são armazenados no HDFS. NameNode armazena informações de armazenamento desses blocos como IDs de Bloco em sua RAM (NameNode Metadata). Os trabalhos do MapReduce podem acessar esses blocos usando os metadados armazenados na RAM NameNode.

Shashwat:

Podemos usar MapReduce (MRv1) e MRv2 (com YARN) no mesmo cluster?
O Hadoop 2.0 introduziu uma nova estrutura YARN para escrever e executar diferentes aplicativos no Hadoop. Portanto, YARN e MapReduce são dois conceitos diferentes no Hadoop 2.0 e não devem ser misturados e usados ​​de forma intercambiável. A pergunta certa é “É possível executar MRv1 e MRv2 em um cluster Hadoop 2.0 habilitado para YARN?” A resposta a esta pergunta é uma 'Não' mesmo que um cluster do Hadoop possa ser configurado para executar MRv1 e MRv2, mas pode executar apenas um conjunto de daemons a qualquer momento. Ambos os frameworks eventualmente usam os mesmos arquivos de configuração ( yarn-site.xml e mapred-site.xml ) para executar os daemons, portanto, apenas uma das duas configurações pode ser ativada em um cluster do Hadoop.

Boneca:

Qual é a diferença entre MapReduce de última geração (MRv2) e YARN?
YARN e Next Generation MapReduce (MRv2) são dois conceitos e tecnologias diferentes no Hadoop 2.0. YARN é uma estrutura de software que pode ser usada para executar não apenas o MRv2, mas também outros aplicativos. MRv2 é uma estrutura de aplicativo escrita usando a API YARN e é executada dentro do YARN.

Bharat:

O Hadoop 2.0 fornece compatibilidade com versões anteriores para aplicativos Hadoop 1.x?
Neha:

A migração do Hadoop 1.0 para 2.0 requer código de aplicativo pesado migração?
Não, a maioria dos aplicativos desenvolvidos com APIs “org.apache.hadoop.mapred” podem ser executados no YARN sem qualquer recompilação. O YARN é binário compatível com aplicativos MRv1 e “bin / hadoop” pode ser usado para enviar esses aplicativos no YARN. Leia mais sobre isso Aqui .

Sherin:

O que acontece se o nó do Resource Manager falhar no Hadoop 2.0?
A partir do Hadoop Release 2.4.0, o suporte de alta disponibilidade para Resource Manager também está disponível. O ResourceManager usa o Apache ZooKeeper para failover. Quando o nó do Resource Manager falha, um nó secundário pode se recuperar rapidamente por meio do estado do cluster salvo no ZooKeeper. O ResourceManager, em um failover, reinicia todos os aplicativos enfileirados e em execução.

Sabbirali:

A estrutura Hadoop do Apache funciona no Cloudera Hadoop?
O Apache Hadoop foi introduzido em 2005 com o mecanismo de processamento MapReduce principal para oferecer suporte ao processamento distribuído de cargas de trabalho de dados em grande escala armazenadas no HDFS. É um projeto de código aberto e possui várias distribuições (semelhante ao Linux). Cloudera Hadoop (CDH) é uma dessas distribuições da Cloudera. Outras distribuições semelhantes são HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights etc.

Arulvadivel:

Alguma maneira fácil de instalar o Hadoop no meu laptop e tentar a migração do banco de dados Oracle para o Hadoop?
Você pode começar com um HortonWorks Sandbox ou Cloudera Quick VM em seu laptop (com pelo menos 4 GB de RAM e processador i3 ou superior). Use SQOOP para mover dados do Oracle para o Hadoop conforme explicado Aqui .

Bhabani:

Quais são os melhores livros disponíveis para aprender Hadoop?
Começar com Hadoop: o guia definitivo por Tom White e Operações Hadoop por Eric Sammer.

Mahendra:

Existe alguma leitura disponível para Hadoop 2.0, assim como Hadoop, o guia definitivo?
Reveja o última chegada em estantes escritas por alguns dos criadores do Hadoop 2.0.

Fique ligado para mais perguntas nesta série.