Tutorial HDFS: Introdução ao HDFS e seus recursos



Este blog do tutorial do HDFS ajudará você a entender o HDFS ou Hadoop Distributed File System e seus recursos. Você também explorará seus componentes principais resumidamente.

Tutorial HDFS

Antes de prosseguir neste blog de tutorial do HDFS, deixe-me mostrar algumas das estatísticas insanas relacionadas ao HDFS:

o que é * em sql
  • Em 2010, Facebook alegou ter um dos maiores armazenamento de cluster HDFS 21 petabytes De dados.
  • Em 2012, Facebook declarou que eles têm o maior cluster HDFS único com mais de 100 PB De dados .
  • E Yahoo ! Tem mais do que 100.000 CPU em mais de 40.000 servidores executando Hadoop, com seu maior cluster Hadoop em execução 4.500 nós . Tudo dito, o Yahoo! lojas 455 petabytes de dados no HDFS.
  • Na verdade, em 2013, a maioria dos grandes nomes da Fortune 50 começou a usar o Hadoop.

Muito difícil de digerir? Certo. Conforme discutido em , O Hadoop tem duas unidades fundamentais - S enfurecer-se e Em processamento . Quando digo parte de armazenamento do Hadoop, estou me referindo a HDFS que significa Sistema de arquivos distribuídos Hadoop . Então, neste blog, irei apresentar a você HDFS .





Aqui, estarei falando sobre:

  • O que é HDFS?
  • Vantagens do HDFS
  • Recursos do HDFS

Antes de falar sobre HDFS, deixe-me dizer, o que é um Sistema de Arquivos Distribuído?



DFS ou sistema de arquivos distribuído:

Sistema de arquivos distribuído fala sobre administrar dados , ou seja, arquivos ou pastas em vários computadores ou servidores. Em outras palavras, o DFS é um sistema de arquivos que nos permite armazenar dados em vários nós ou máquinas em um cluster e permite que vários usuários acessem os dados. Basicamente, ele serve ao mesmo propósito que o sistema de arquivos que está disponível em sua máquina, como para Windows você tem NTFS (New Technology File System) ou para Mac você tem HFS (Hierarchical File System). A única diferença é que, no caso do Sistema de Arquivos Distribuído, você armazena dados em várias máquinas ao invés de uma única máquina. Mesmo que os arquivos sejam armazenados na rede, o DFS organiza e exibe os dados de tal maneira que um usuário sentado em uma máquina terá a sensação de que todos os dados estão armazenados nessa mesma máquina.

O que é HDFS?

O sistema de arquivos Hadoop Distributed ou HDFS é um sistema de arquivos distribuídos baseado em Java que permite armazenar grandes dados em vários nós em um cluster Hadoop. Portanto, se você instalar o Hadoop, obterá o HDFS como um sistema de armazenamento subjacente para armazenar os dados no ambiente distribuído.

Vamos dar um exemplo para entender isso. Imagine que você tenha dez máquinas ou dez computadores com um disco rígido de 1 TB em cada máquina. Agora, o HDFS diz que se você instalar o Hadoop como uma plataforma em cima dessas dez máquinas, você obterá o HDFS como um serviço de armazenamento. O Hadoop Distributed File System é distribuído de forma que cada máquina contribui com seu armazenamento individual para armazenar qualquer tipo de dados.



Tutorial HDFS: vantagens do HDFS

1. Armazenamento Distribuído:

Armazenamento distribuído - Tutorial HDFS - Edureka

Ao acessar o sistema de arquivos Hadoop Distributed de qualquer uma das dez máquinas no cluster Hadoop, você se sentirá como se estivesse conectado a uma única máquina grande com capacidade de armazenamento de 10 TB (armazenamento total em dez máquinas). O que isto significa? Isso significa que você pode armazenar um único arquivo grande de 10 TB, que será distribuído nas dez máquinas (1 TB cada).Então é não limitado aos limites físicos de cada máquina individual.

2. Computação Distribuída e Paralela:

Como os dados são divididos entre as máquinas, isso nos permite tirar vantagem de Computação Distribuída e Paralela . Vamos entender esse conceito pelo exemplo acima. Suponha que leve 43 minutos para processar o arquivo de 1 TB em uma única máquina. Então, agora me diga, quanto tempo levará para processar o mesmo arquivo de 1 TB quando você tiver 10 máquinas em um cluster do Hadoop com configuração semelhante - 43 minutos ou 4,3 minutos? 4,3 minutos, certo! O que aconteceu aqui? Cada um dos nós está trabalhando com uma parte do arquivo de 1 TB em paralelo. Portanto, o trabalho que antes demorava 43 minutos, é concluído em apenas 4,3 minutos agora que o trabalho foi dividido em dez máquinas.

3. Escalabilidade horizontal:

Por último, mas não menos importante, vamos falar sobre o escala horizontal ou escalando no Hadoop. Existem dois tipos de dimensionamento: vertical e horizontal . Na escala vertical (escala), você aumenta a capacidade do hardware do seu sistema. Em outras palavras, você adquire mais RAM ou CPU e adiciona ao seu sistema existente para torná-lo mais robusto e poderoso. Mas existem desafios associados ao escalonamento vertical ou escalonamento vertical:

  • Sempre há um limite para o qual você pode aumentar a capacidade do hardware. Então, você não pode continuar aumentando a RAM ou CPU da máquina.
  • Na escala vertical, você para sua máquina primeiro. Em seguida, você aumenta a RAM ou CPU para torná-lo uma pilha de hardware mais robusta. Depois de aumentar a capacidade do hardware, reinicie a máquina. Esse tempo de inatividade quando você está parando o sistema se torna um desafio.

No caso de escala horizontal (escala) , você adiciona mais nós ao cluster existente em vez de aumentar a capacidade de hardware de máquinas individuais. E o mais importante, você pode adicione mais máquinas em movimento ou seja, sem parar o sistema . Portanto, durante o dimensionamento, não temos nenhum tempo de inatividade ou zona verde, nada desse tipo. No final do dia, você terá mais máquinas trabalhando em paralelo para atender às suas necessidades.

Vídeo Tutorial HDFS:

Você pode conferir o vídeo abaixo, onde todos os conceitos relacionados ao HDFS foram discutidos em detalhes:

Tutorial HDFS: Recursos do HDFS

Entenderemos esses recursos em detalhes quando explorarmos a arquitetura HDFS em nosso próximo blog de tutorial do HDFS. Mas, por enquanto, vamos ter uma visão geral dos recursos do HDFS:

  • Custo: O HDFS, em geral, é implantado em um hardware comum, como seu desktop / laptop, que você usa todos os dias. Portanto, é muito econômico em termos de custo de propriedade do projeto. Visto que estamos usando hardware de commodity de baixo custo, você não precisa gastar muito dinheiro para dimensionar seu cluster Hadoop. Em outras palavras, adicionar mais nós ao HDFS é econômico.
  • Variedade e volume de dados: Quando falamos sobre HDFS, falamos sobre o armazenamento de dados enormes, ou seja, terabytes e petabytes de dados e diferentes tipos de dados. Assim, você pode armazenar qualquer tipo de dados no HDFS, sejam estruturados, não estruturados ou semiestruturados.
  • Confiabilidade e tolerância a falhas: Quando você armazena dados no HDFS, ele divide internamente os dados fornecidos em blocos de dados e os armazena de forma distribuída em seu cluster Hadoop. As informações sobre qual bloco de dados está localizado em qual dos nós de dados são registradas nos metadados. NameNode gerencia os metadados e o DataNodes são responsáveis ​​por armazenar os dados.
    O nó de nome também replica os dados, ou seja, mantém várias cópias dos dados. Essa replicação dos dados torna o HDFS muito confiável e tolerante a falhas. Portanto, mesmo se qualquer um dos nós falhar, podemos recuperar os dados das réplicas que residem em outros nós de dados. Por padrão, o fator de replicação é 3. Portanto, se você armazenar 1 GB de arquivo no HDFS, ele finalmente ocupará 3 GB de espaço. O nó de nome atualiza periodicamente os metadados e mantém o fator de replicação consistente.
  • Integridade de dados: Integridade de dados informa se os dados armazenados em meu HDFS estão corretos ou não. O HDFS verifica constantemente a integridade dos dados armazenados em relação à sua soma de verificação. Se encontrar alguma falha, ele reporta ao nó de nome sobre isso. Em seguida, o nó do nome cria novas réplicas adicionais e, portanto, exclui as cópias corrompidas.
  • Alto rendimento: O rendimento é a quantidade de trabalho realizado em uma unidade de tempo. Ele fala sobre a rapidez com que você pode acessar os dados do sistema de arquivos. Basicamente, dá uma ideia sobre o desempenho do sistema. Como você viu no exemplo acima, onde usamos dez máquinas coletivamente para aprimorar a computação. Lá, conseguimos reduzir o tempo de processamento de 43 minutos para um mero 4,3 minutos como todas as máquinas estavam trabalhando em paralelo. Portanto, ao processar dados em paralelo, diminuímos o tempo de processamento tremendamente e, assim, alcançamos um alto rendimento.
  • Localidade dos dados: A localidade dos dados fala sobre como mover a unidade de processamento para os dados em vez dos dados para a unidade de processamento. Em nosso sistema tradicional, costumávamos trazer os dados para a camada de aplicativo e depois processá-los. Mas agora, por causa da arquitetura e do grande volume de dados, trazer os dados para a camada de aplicativoreduzir o desempenho da rede em uma extensão perceptível.Portanto, no HDFS, trazemos a parte da computação para os nós de dados onde os dados residem. Portanto, você não está movendo os dados, está trazendo o programa ou processoparte dos dados.

Agora, você tem uma breve ideia sobre o HDFS e seus recursos. Mas confiem em mim, esta é apenas a ponta do iceberg. No meu próximo , Vou mergulhar fundo no Arquitetura HDFS e revelarei os segredos por trás do sucesso do HDFS. Juntos, estaremos respondendo a todas as perguntas que estão refletindo em sua cabeça, tais como:

  • O que acontece nos bastidores quando você lê ou grava dados no Hadoop Distributed File System?
  • Quais são os algoritmos, como reconhecimento de rack, que tornam o HDFS tão tolerante a falhas?
  • Como o Hadoop Distributed File System gerencia e cria réplicas?
  • O que são operações de bloqueio?

Agora que você entendeu o HDFS e seus recursos, confira o pela Edureka, uma empresa de aprendizagem online confiável com uma rede de mais de 250.000 alunos satisfeitos espalhados por todo o mundo. O curso Edureka Big Data Hadoop Certification Training ajuda os alunos a se tornarem especialistas em HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop usando casos de uso em tempo real no varejo, mídia social, aviação, turismo, domínio financeiro.

Tem alguma questão para nós? Mencione isso na seção de comentários e entraremos em contato com você.