Apache Drill é o primeiro motor SQL sem esquema da indústria. Drill não é o primeiro mecanismo de consulta do mundo, mas é o primeiro que atinge o equilíbrio perfeito entre flexibilidade e velocidade. O Drill foi projetado para escalar para vários milhares de nós e consultar petabytes de dados em velocidades interativas que os ambientes de BI / Analytics exigem.
Ele pode se integrar com várias fontes de dados como Hive, HBase, MongoDB, sistema de arquivos, RDBMS. Além disso, formatos de entrada como Avro, CSV, TSV, PSV, Parquet, arquivos de sequência Hadoop e muitos outros podem ser usados no Drill com facilidade.
Por que Apache Drill?
A maior vantagem do Apache Drill é que ele pode descobrir o esquema instantaneamente conforme você consulta quaisquer dados. Além disso, ele pode funcionar com suas ferramentas de BI como Tableau, Qlikview, MicroStrategy etc. para obter melhores análises.
Aqui está uma citação de um analista da indústria que resume o valor do Apache Drill:
“Drill não é apenas sobre SQL-on-Hadoop. É sobre SQL em praticamente qualquer coisa, imediatamente e sem formalidade. ”
- Andrew Burst, Gigaom Research, janeiro de 2015
Drillbit é o daemon do Apache Drill que é executado em cada nó do cluster. Ele usa o ZooKeeper para toda a comunicação no cluster e para a associação ao cluster de manutenção. É responsável por aceitar as solicitações do cliente, processar as consultas e retornar os resultados ao cliente. A broca que recebe a solicitação do cliente é chamada de ‘chefe’. Ele gera o plano de execução, os fragmentos de execução são enviados para outras brocas em execução no cluster.
Mais uma vantagem é que a instalação e configuração da furadeira são bastante simples. Vamos aprender como instalar o Apache Drill.
A primeira etapa é fazer o download do pacote de perfuração.
implementação de hashmap em exemplo java
Comando: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Comando: tar -xvf apache-drill-1.5.0.tar.gz
Comando: ls
Em seguida, defina as variáveis de ambiente no arquivo .bashrc.
Comando: sudo gedit .bashrc
exportar DRILL_HOME = / home / edureka / apache-drill-1.5.0
export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
Este comando atualizará as mudanças:
Comando: source .bashrc
Agora vá para o diretório drill conf e edite o arquivo drill-override.conf com id do cluster e host e porta do zookeeper, iremos executá-lo em um cluster local.
Comando: cd apache-drill-1.5.0
Comando: sudo gedit conf / drill-override.conf
Por padrão, DRILL_MAX_DIRECT_MEMORY terá 8 GB em drill-env.sh e precisamos mantê-lo de acordo com a memória que temos.
Comando: sudo gedit conf / drill-env.sh
Para instalar o drill apenas em um único nó, você pode usar o modo incorporado, onde será executado localmente. Ele iniciará automaticamente o serviço de drillbit quando você executar este comando.
Comando: ./bin/drill-embedded
Você pode executar uma consulta simples para verificar a instalação.
Comando: selecione * em sys.options WHERE type = ‘SYSTEM’ e nomeie como ‘security%’
Para verificar o console da web do Apache Drill, precisamos ir para localhost: 8047 no navegador da web.
Você também pode executar sua consulta na guia Consulta.
Para executar o drill no modo distribuído, você precisa editar o ID do cluster e adicionar informações do ZooKeeper em drill-override.conf como abaixo.
Em seguida, precisamos iniciar o serviço ZooKeeper em cada nó. Depois disso, você deve iniciar o serviço de drillbit em cada nó com este comando.
Comando: ./bin/drillbit.sh start
Comando: jps
Agora, usamos o comando abaixo para iniciar o shell de perfuração.
Agora, podemos executar nossas consultas no cluster no modo distribuído.
Esta é a primeira postagem em uma série de blogs do Apache Drill em duas partes. O segundo blog da série estará disponível em breve.
Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.
Postagens relacionadas:
conversão de tipo em c ++