Detalhando o Apache Drill, o mecanismo de consulta da Nova Era



Este tutorial do Apache Drill fornece todas as informações de que você precisa para começar a usar o mecanismo de consulta Apache Drill, uso com Hadoop, Big Data e Apache Spark.

Apache Drill é o primeiro motor SQL sem esquema da indústria. Drill não é o primeiro mecanismo de consulta do mundo, mas é o primeiro que atinge o equilíbrio perfeito entre flexibilidade e velocidade. O Drill foi projetado para escalar para vários milhares de nós e consultar petabytes de dados em velocidades interativas que os ambientes de BI / Analytics exigem.





Ele pode se integrar com várias fontes de dados como Hive, HBase, MongoDB, sistema de arquivos, RDBMS. Além disso, formatos de entrada como Avro, CSV, TSV, PSV, Parquet, arquivos de sequência Hadoop e muitos outros podem ser usados ​​no Drill com facilidade.

Por que Apache Drill?

A maior vantagem do Apache Drill é que ele pode descobrir o esquema instantaneamente conforme você consulta quaisquer dados. Além disso, ele pode funcionar com suas ferramentas de BI como Tableau, Qlikview, MicroStrategy etc. para obter melhores análises.



Aqui está uma citação de um analista da indústria que resume o valor do Apache Drill:

“Drill não é apenas sobre SQL-on-Hadoop. É sobre SQL em praticamente qualquer coisa, imediatamente e sem formalidade. ”

- Andrew Burst, Gigaom Research, janeiro de 2015



Drillbit é o daemon do Apache Drill que é executado em cada nó do cluster. Ele usa o ZooKeeper para toda a comunicação no cluster e para a associação ao cluster de manutenção. É responsável por aceitar as solicitações do cliente, processar as consultas e retornar os resultados ao cliente. A broca que recebe a solicitação do cliente é chamada de ‘chefe’. Ele gera o plano de execução, os fragmentos de execução são enviados para outras brocas em execução no cluster.

Drillbits-Apache-Drill

Mais uma vantagem é que a instalação e configuração da furadeira são bastante simples. Vamos aprender como instalar o Apache Drill.

A primeira etapa é fazer o download do pacote de perfuração.

implementação de hashmap em exemplo java

Comando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Comando: tar -xvf apache-drill-1.5.0.tar.gz

Comando: ls

Em seguida, defina as variáveis ​​de ambiente no arquivo .bashrc.

Comando: sudo gedit .bashrc

exportar DRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Este comando atualizará as mudanças:

Comando: source .bashrc

Agora vá para o diretório drill conf e edite o arquivo drill-override.conf com id do cluster e host e porta do zookeeper, iremos executá-lo em um cluster local.

Comando: cd apache-drill-1.5.0

Comando: sudo gedit conf / drill-override.conf

Por padrão, DRILL_MAX_DIRECT_MEMORY terá 8 GB em drill-env.sh e precisamos mantê-lo de acordo com a memória que temos.

Comando: sudo gedit conf / drill-env.sh

Para instalar o drill apenas em um único nó, você pode usar o modo incorporado, onde será executado localmente. Ele iniciará automaticamente o serviço de drillbit quando você executar este comando.

Comando: ./bin/drill-embedded

Você pode executar uma consulta simples para verificar a instalação.

Comando: selecione * em sys.options WHERE type = ‘SYSTEM’ e nomeie como ‘security%’

Para verificar o console da web do Apache Drill, precisamos ir para localhost: 8047 no navegador da web.

Você também pode executar sua consulta na guia Consulta.

Para executar o drill no modo distribuído, você precisa editar o ID do cluster e adicionar informações do ZooKeeper em drill-override.conf como abaixo.

Em seguida, precisamos iniciar o serviço ZooKeeper em cada nó. Depois disso, você deve iniciar o serviço de drillbit em cada nó com este comando.

Comando: ./bin/drillbit.sh start

Comando: jps

Agora, usamos o comando abaixo para iniciar o shell de perfuração.

Agora, podemos executar nossas consultas no cluster no modo distribuído.

Esta é a primeira postagem em uma série de blogs do Apache Drill em duas partes. O segundo blog da série estará disponível em breve.

Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.

Postagens relacionadas:

conversão de tipo em c ++

Perfuração para baixo no Apache Drill Parte 2

Apache Spark Vs Hadoop MapReduce