MongoDB com Hadoop e tecnologias de Big Data relacionadas



O MongoDB com Hadoop e tecnologias de Big Data relacionadas é uma combinação poderosa para fornecer solução para uma situação complexa em análise.

Bancos de dados relacionais por muito tempo foram suficientes para lidar com conjuntos de dados pequenos ou médios. Mas a taxa colossal na qual os dados estão crescendo torna a abordagem tradicional de armazenamento e recuperação de dados inviável. Esse problema está sendo resolvido por tecnologias mais recentes que podem lidar com Big Data. Hadoop, Hive e Hbase são as plataformas populares para operar esse tipo de grandes conjuntos de dados. Bancos de dados NoSQL ou não apenas SQL, como MongoDB, fornecem um mecanismo para armazenar e recuperar dados no modelo de consistência perdedor com vantagens como:

  • Escala horizontal
  • Maior disponibilidade
  • Acesso mais rápido

A equipe de engenharia do MongoDB atualizou recentemente o Conector MongoDB para Hadoop para ter uma integração melhor. Isso torna mais fácil para os usuários do Hadoop:





o que é br tag em html
  • Integre dados em tempo real do MongoDB com Hadoop para análises profundas e offline.
  • O conector expõe o poder analítico do MapReduce do Hadoop para dados de aplicativos ativos do MongoDB, gerando valor de big data com mais rapidez e eficiência.
  • O Conector apresenta o MongoDB como um sistema de arquivos compatível com Hadoop, permitindo que um trabalho MapReduce leia do MongoDB diretamente sem copiá-lo primeiro para HDFS (Hadoop File System), eliminando assim a necessidade de mover Terabytes de dados pela rede.
  • Os trabalhos do MapReduce podem passar consultas como filtros, evitando assim a necessidade de verificar coleções inteiras, e também podem aproveitar as vantagens dos recursos de indexação do MongoDB, incluindo geoespacial, pesquisa de texto, matriz, índices compostos e esparsos.
  • Lendo do MongoDB, os resultados das tarefas do Hadoop também podem ser gravados de volta no MongoDB, para oferecer suporte a processos operacionais em tempo real e consultas ad-hoc.

Casos de uso de Hadoop e MongoDB:

Vejamos uma descrição de alto nível de como MongoDB e Hadoop podem se encaixar em uma pilha típica de Big Data. Principalmente nós temos:

  • MongoDB usado como o Armazenamento de dados em tempo real “operacional”
  • Hadoop para processamento e análise de dados em lote offline

Continue lendo para saber por quê e como o MongoDB foi usado por empresas e organizações como Aadhar, Shutterfly, Metlife e eBay .



Aplicação do MongoDB com Hadoop na agregação em lote:

Na maioria dos cenários, a funcionalidade de agregação integrada fornecida pelo MongoDB é suficiente para analisar dados. No entanto, em certos casos, uma agregação de dados significativamente mais complexa pode ser necessária. É aqui que o Hadoop pode fornecer uma estrutura poderosa para análises complexas.

Neste cenário:

  • Os dados são extraídos do MongoDB e processados ​​no Hadoop por meio de uma ou mais tarefas MapReduce. Os dados também podem ser obtidos de outros lugares dentro dessas tarefas MapReduce para desenvolver uma solução de fonte de dados múltiplos.
  • A saída dessas tarefas MapReduce pode então ser gravada de volta no MongoDB para consultas em um estágio posterior e para qualquer análise em uma base ad-hoc.
  • Os aplicativos criados com base no MongoDB podem, portanto, usar as informações da análise de lote para apresentar ao cliente final ou para habilitar outros recursos de downstream.

Agregação de banco de dados Hadoop Mongo



Aplicação em Data Warehousing:

Em uma configuração de produção típica, os dados do aplicativo podem residir em vários armazenamentos de dados, cada um com sua própria linguagem de consulta e funcionalidade. Para reduzir a complexidade nesses cenários, o Hadoop pode ser usado como um data warehouse e atuar como um repositório centralizado para dados de várias fontes.

Neste tipo de cenário:

como usar o serviço agora
  • As tarefas MapReduce periódicas carregam dados do MongoDB para o Hadoop.
  • Assim que os dados do MongoDB e outras fontes estiverem disponíveis no Hadoop, o conjunto de dados maior pode ser consultado.
  • Os analistas de dados agora têm a opção de usar MapReduce ou Pig para criar tarefas que consultam os conjuntos de dados maiores que incorporam dados do MongoDB.

A equipe que trabalha por trás do MongoDB garantiu que, com sua rica integração com tecnologias de Big Data, como Hadoop, seja capaz de se integrar bem na pilha de Big Data e ajudar a resolver alguns problemas arquitetônicos complexos quando se trata de armazenamento, recuperação, processamento, agregação e armazenamento de dados . Fique ligado em nossa próxima postagem sobre perspectivas de carreira para aqueles que adotam o Hadoop com MongoDB. Se você já está trabalhando com o Hadoop ou apenas adquirindo o MongoDB, confira os cursos que oferecemos para o MongoDB