INTRODUÇÃO AO APACHE HIVE

Apache Hive é um pacote de armazenamento de dados construído sobre o Hadoop e é usado para análise de dados. O Hive é voltado para usuários que se sentem confortáveis com SQL. É semelhante ao SQL e denominado HiveQL, usado para gerenciar e consultar dados estruturados. O Apache Hive é usado para abstrair a complexidade do Hadoop. Essa linguagem também permite que os programadores tradicionais de mapeamento / redução conectem seus mapeadores e redutores personalizados. O recurso popular do Hive é que não há necessidade de aprender Java.

Hive, uma estrutura de armazenamento de dados em escala de peta-bytes de código aberto baseada em Hadoop, foi desenvolvida pela Equipe de Infraestrutura de Dados do Facebook. O Hive também é uma das tecnologias que estão sendo usadas para atender aos requisitos do Facebook. O Hive é muito popular entre todos os usuários internos do Facebook e está sendo usado para executar milhares de trabalhos no cluster com centenas de usuários, para uma ampla variedade de aplicativos. O cluster Hive-Hadoop no Facebook armazena mais de 2 PB de dados brutos e carrega regularmente 15 TB de dados diariamente.

Vejamos alguns de seus recursos que o tornam popular e fácil de usar:

Permite que os programadores conectem mapeadores e redutores personalizados.
Possui infraestrutura de Data Warehouse.
Fornece ferramentas para permitir ETL fácil de dados.
Define uma linguagem de consulta semelhante a SQL chamada QL.

Caso de uso do Apache Hive - Facebook:

Caso de uso do Hive - Facebook

talend open studio tutorial pdf

Antes de implementar o Hive, o Facebook enfrentou muitos desafios à medida que o tamanho dos dados gerados aumentava ou, melhor, explodia, tornando muito difícil lidar com eles. O RDBMS tradicional não conseguia lidar com a pressão e, como resultado, o Facebook estava procurando opções melhores. Para resolver esse problema iminente, o Facebook inicialmente tentou usar o Hadoop MapReduce, mas com dificuldade em programação e conhecimento obrigatório em SQL, tornou uma solução impraticável. O Hive permitiu que eles superassem os desafios que estavam enfrentando.

Com o Hive, eles agora são capazes de realizar o seguinte:

As tabelas podem ser repartidas e divididas em intervalos
Flexibilidade e evolução do esquema
Drivers JDBC / ODBC estão disponíveis
As tabelas Hive podem ser definidas diretamente no HDFS
Extensível - Tipos, formatos, funções e scripts

Caso de uso do Hive na área de saúde:

Onde usar o Hive?

O Apache Hive pode ser usado nos seguintes locais:

Mineração de dados
Processamento de Log
Indexação de Documentos
Inteligência de negócios voltada para o cliente
Modelagem Preditiva
Testando hipóteses

Arquitetura Hive:

O Hive consiste nos seguintes componentes principais:

Metastore - para armazenar os metadados.
JDBC / ODBC - Compilador de Consultas e Mecanismo de Execução para converter consultas SQL em uma sequência de MapReduce.
SerDe e ObjectInspectors - Para formatos e tipos de dados.
UDF / UDAF - para funções definidas pelo usuário.
Clientes - semelhante à linha de comando do MySQL e uma IU da web.

Componentes do Hive:

Metastore:

O Metastore armazena as informações sobre as tabelas, partições e colunas dentro das tabelas. Existem 3 maneiras de armazenar no Metastore: Embedded Metastore, Local Metastore e Remote Metastore. Principalmente, o Remote Metastore será usado no modo de produção.

Limitações do Hive:

O Hive tem as seguintes limitações e não pode ser usado em tais circunstâncias:

Não projetado para processamento de transações online.
Fornece latência aceitável para navegação de dados interativa.
Não oferece consultas em tempo real e atualizações de nível de linha.
A latência para consultas do Hive geralmente é muito alta.

Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.

Postagens relacionadas:

Comandos Hive

Introdução ao Apache Hive

Apache Hive é um pacote de armazenamento de dados construído sobre o Hadoop e é usado para análise de dados. O Hive é voltado para usuários que se sentem confortáveis com SQL.

Caso de uso do Apache Hive - Facebook:

Caso de uso do Hive na área de saúde:

Onde usar o Hive?

Arquitetura Hive:

Componentes do Hive:

Limitações do Hive:

Categorias

Popular Articles

Q Learning: tudo o que você precisa saber sobre o Reinforcement Learning

Dez principais razões pelas quais você deve aprender Python

O que é Hyperledger - Uma Abordagem Industrial para Blockchain

Plano de carreira do engenheiro de DevOps: seu guia para acumular os melhores trabalhos de DevOps

Top 10 Best IDE for Python: Como escolher o melhor Python IDE?

Oportunidades de carreira em ciência de dados: seu guia para liberar as principais vagas de cientistas de dados

R Tutorial - um guia para iniciantes no aprendizado da programação R

Como utilizar da melhor forma a tag HTML Nav?

Hadoop Developer-Job Responsibility & Skills

O que é Coupling em Java e seus diferentes tipos?

Serviços do Google Cloud: tudo o que você precisa saber sobre os serviços do GCP

Carreiras UiPath - Aprenda como construir uma carreira na RPA

Introdução ao Apache Hive

Apache Hive é um pacote de armazenamento de dados construído sobre o Hadoop e é usado para análise de dados. O Hive é voltado para usuários que se sentem confortáveis ​​com SQL.

Caso de uso do Apache Hive - Facebook:

Caso de uso do Hive na área de saúde:

Onde usar o Hive?

Arquitetura Hive:

Componentes do Hive:

Limitações do Hive:

Categorias

Popular Articles

Apache Hive é um pacote de armazenamento de dados construído sobre o Hadoop e é usado para análise de dados. O Hive é voltado para usuários que se sentem confortáveis com SQL.