Ferramentas essenciais do Hadoop para análise de Big Data



Hadoop é a palavra da moda no mundo da TI hoje, e esta postagem descreve as ferramentas essenciais do Hadoop que processam Big Data.

Hoje, o termo mais popular no mundo da TI é ‘Hadoop’. Em um curto espaço de tempo, Hadoop cresceu enormemente e provou ser útil para uma grande coleção de projetos diversos. A comunidade Hadoop está evoluindo rapidamente e tem um papel proeminente em seu ecossistema.





Aqui está uma olhada nas ferramentas essenciais do Hadoop que são usadas para lidar com Big Data.

o que é swing em java

ambari



Ambari é um projeto Apache apoiado pela Hortonworks. Ele oferece uma GUI (Graphical User Interface) baseada na web com scripts de assistente para configurar clusters com a maioria dos componentes padrão. O Ambari provisiona, gerencia e monitora todos os clusters de jobs do Hadoop.

hdfs-logo

o HDFS , distribuído sob licença Apache oferece uma estrutura básica para dividir coleções de dados entre vários nós. No HDFS, os arquivos grandes são divididos em blocos, onde vários nós mantêm todos os blocos de um arquivo. O sistema de arquivos é projetado de forma a combinar tolerância a falhas com alto rendimento. Os blocos de HDFS são carregados para manter o streaming estável. Eles geralmente não são armazenados em cache para minimizar a latência.



hbaselogo

HBase é um sistema de gerenciamento de banco de dados orientado a colunas que é executado no HDFS. Os aplicativos HBase são escritos em Java, muito parecido com o aplicativo MapReduce. É composto por um conjunto de tabelas, onde cada tabela contém linhas e colunas como um banco de dados tradicional. Quando os dados caem na grande tabela, o HBase irá armazenar os dados, pesquisá-los e compartilhar automaticamente a tabela em vários nós para que os trabalhos MapReduce possam executá-los localmente. O HBase oferece uma garantia limitada para algumas mudanças locais. As mudanças que acontecem em uma única linha podem ser bem-sucedidas ou falhar ao mesmo tempo.

hive

Se você já é fluente em SQL, pode aproveitar o Hadoop usando Colmeia . O Hive foi desenvolvido por algumas pessoas do Facebook. O Apache Hive regula o processo de extração de bits de todos os arquivos no HBase. Ele suporta a análise de grandes conjuntos de dados armazenados no HDFS do Hadoop e sistemas de arquivos compatíveis. Ele também fornece uma linguagem semelhante a SQL chamada HSQL (HiveSQL) que entra nos arquivos e extrai os fragmentos necessários para o código.

sqoop

Apache Sqoop é especialmente projetado para transferir dados em massa com eficiência dos bancos de dados tradicionais para o Hive ou HBase. Ele também pode ser usado para extrair dados do Hadoop e exportá-los para armazenamentos de dados estruturados externos, como bancos de dados relacionais e data warehouses corporativos. Sqoop é uma ferramenta de linha de comando, mapeando entre as tabelas e a camada de armazenamento de dados, convertendo as tabelas em uma combinação configurável de HDFS, HBase ou Hive.

Pig1

Quando os dados armazenados estão visíveis para o Hadoop, Porco apache mergulha nos dados e executa o código que está escrito em sua própria linguagem, chamada Pig Latin. O Pig Latin está repleto de abstrações para lidar com os dados. O Pig vem com funções padrão para tarefas comuns, como calcular a média de dados, trabalhar com datas ou encontrar diferenças entre strings. O Pig também permite que o usuário escreva seus próprios idiomas, chamados UDF (User Defined Function), quando as funções padrão são insuficientes.

zookeper

Funcionário do zoológico é um serviço centralizado que mantém, configura informações, dá um nome e fornece sincronização distribuída em um cluster. Ele impõe uma hierarquia semelhante a um sistema de arquivos no cluster e armazena todos os metadados das máquinas, para que possamos sincronizar o trabalho das várias máquinas.

NoSQL

Alguns clusters Hadoop se integram com NoSQL armazenamentos de dados que vêm com seus próprios mecanismos para armazenar dados em um cluster de nós. Isso permite que eles armazenem e recuperem dados com todos os recursos do banco de dados NoSQL, após o qual o Hadoop pode ser usado para agendar trabalhos de análise de dados no mesmo cluster.

mahoutlogo

Mahout é projetado para implementar um grande número de algoritmos, classificações e filtragem de análise de dados para o cluster Hadoop. Muitos dos algoritmos padrão, como K-means, Dirichelet, padrão paralelo e classificações Bayesianas, estão prontos para serem executados nos dados com um mapa de estilo Hadoop e redução.

Lucene, escrito em Java e integrado facilmente com Hadoop, é um companheiro natural para Hadoop. É uma ferramenta destinada a indexar grandes blocos de texto não estruturado. Lucene lida com a indexação, enquanto o Hadoop lida com as consultas distribuídas em todo o cluster. Os recursos do Lucene-Hadoop estão evoluindo rapidamente conforme novos projetos são desenvolvidos.

Avro

Euro é um sistema de serialização que agrupa os dados junto com um esquema para compreendê-los. Cada pacote vem com uma estrutura de dados JSON. JSON explica como os dados podem ser analisados. O cabeçalho do JSON especifica a estrutura dos dados, onde a necessidade de escrever tags extras nos dados para marcar os campos pode ser evitada. A saída é consideravelmente mais compacta do que os formatos tradicionais como XML.

Um trabalho pode ser simplificado dividindo-o em etapas. Ao dividir o projeto em vários trabalhos do Hadoop, Oozie começa a processá-los na sequência certa. Ele gerencia o fluxo de trabalho conforme especificado pelo DAG (Directed Acyclic Graph) e não há necessidade de monitoramento oportuno.

Ferramentas GIS

Trabalhar com mapas geográficos é um grande trabalho para clusters que executam Hadoop. O GIS ( Sistema de Informações Geográficas ) ferramentas para projetos Hadoop adaptaram as melhores ferramentas baseadas em Java para compreender informações geográficas a serem executadas com Hadoop. Os bancos de dados agora podem lidar com consultas geográficas usando coordenadas e os códigos podem implantar as ferramentas GIS.

Reunir todos os dados é igual a armazená-los e analisá-los. Apache Flume despacha 'agentes especiais' para coletar informações que serão armazenadas no HDFS. As informações coletadas podem ser arquivos de log, API do Twitter ou recados de sites. Esses dados podem ser encadeados e submetidos a análises.

Spark

Faísca é a próxima geração que funciona muito bem como o Hadoop, que processa dados armazenados em cache na memória. Seu objetivo é agilizar a execução e a escrita da análise de dados com um modelo de execução geral. Isso pode otimizar gráficos de operador arbitrários e suportar computação in-memory, o que permite consultar dados mais rápido do que mecanismos baseados em disco como o Hadoop.

SQL no Hadoop

Quando é necessário executar uma consulta ad-hoc rápida de todos os dados no cluster, um novo trabalho do Hadoop pode ser escrito, mas isso leva algum tempo. Quando os programadores começaram a fazer isso com mais frequência, eles criaram ferramentas escritas na linguagem simples de SQL. Essas ferramentas oferecem acesso rápido aos resultados.

Apache Drill

O Apache Drill fornece consultas ad-hoc de baixa latência para inúmeras e variadas fontes de dados, incluindo dados aninhados. O Drill, inspirado no Dremel do Google, foi projetado para escalar para 10.000 servidores e consultar petabytes de dados em segundos.

Essas são as ferramentas essenciais do Hadoop para processar Big Data!

Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.

Postagens relacionadas:

Razões práticas para aprender Hadoop 2.0