Apache Spark com Hadoop - Por que é importante?



A implementação do Apache Spark com Hadoop em grande escala pelas principais empresas indica seu sucesso e seu potencial quando se trata de processamento em tempo real.

Hadoop, a estrutura de processamento de dados que se tornou uma plataforma por si só, fica ainda melhor quando bons componentes são conectados a ela. Algumas deficiências do Hadoop, como o componente MapReduce do Hadoop, têm a reputação de serem lentas para análise de dados em tempo real.





Entra no Apache Spark, um mecanismo de processamento de dados baseado em Hadoop projetado para cargas de trabalho em lote e streaming, agora em sua versão 1.0 e equipado com recursos que exemplificam quais tipos de trabalho o Hadoop está sendo empurrado para incluir. O Spark é executado em clusters Hadoop existentes para fornecer funcionalidade aprimorada e adicional.

Vejamos os principais recursos do Spark e como ele funciona junto com o Hadoop e .



Principais benefícios do Apache Spark:

img2-R

Recursos incríveis do Spark:

  • Integração Hadoop - O Spark pode trabalhar com arquivos armazenados no HDFS.
  • Shell Interativo do Spark - O Spark é escrito em Scala e tem sua própria versão do interpretador Scala.
  • Suíte Analítica do Spark - O Spark vem com ferramentas para análise de consulta interativa, processamento e análise de gráficos em grande escala e análise em tempo real.
  • Conjuntos de dados distribuídos resilientes (RDD's) - RDDs são objetos distribuídos que podem ser armazenados em cache na memória, através de um cluster de nós de computação. Eles são os principais objetos de dados usados ​​no Spark.
  • Operadores Distribuídos - Além do MapReduce, existem muitos outros operadores que podem ser usados ​​em RDDs.

Vantagens de usar o Apache Spark com Hadoop:

mesclar elementos da árvore de decisão de classificação 4
  • O Apache Spark se encaixa na comunidade de código aberto Hadoop, com base no Hadoop Distributed File System (HDFS). No entanto, o Spark não está vinculado ao paradigma MapReduce de dois estágios e promete desempenho até 100 vezes mais rápido do que o Hadoop MapReduce para determinados aplicativos.



  • Adequado para algoritmos de aprendizado de máquina - O Spark fornece primitivos para computação de cluster na memória que permite que programas de usuário carreguem dados na memória de um cluster e os consultem repetidamente.

  • Corra 100 vezes mais rápido - Spark, o software de análise também pode acelerar os trabalhos executados na plataforma de processamento de dados Hadoop. Chamado de “canivete suíço Hadoop,” o Apache Spark oferece a capacidade de criar trabalhos de análise de dados que podem ser executados 100 vezes mais rápido do que aqueles executados no Apache Hadoop MapReduce padrão. O MapReduce foi amplamente criticado como um gargalo nos clusters do Hadoop porque executa tarefas em modo de lote, o que significa que a análise de dados em tempo real não é possível.

  • Alternativa para MapReduce - O Spark oferece uma alternativa ao MapReduce. Ele executa trabalhos em rajadas curtas de microlotes com cinco segundos ou menos de intervalo. Ele também oferece mais estabilidade do que estruturas de Hadoop orientadas a fluxo em tempo real, como Twitter Storm. O software pode ser usado para uma variedade de trabalhos, como uma análise contínua de dados ao vivo e, graças a uma biblioteca de software, trabalhos computacionalmente mais profundos envolvendo aprendizado de máquina e processamento de gráficos.

  • Suporte para vários idiomas - Usando Spark, os desenvolvedores podem escrever trabalhos de análise de dados em Java, Scala ou Python, usando um conjunto de mais de 80 operadores de alto nível.

  • Suporte de biblioteca - As bibliotecas do Spark são projetadas para complementar os tipos de trabalhos de processamento que estão sendo explorados de forma mais agressiva com as implementações mais recentes com suporte comercial do Hadoop. MLlib implementa uma série de algoritmos de aprendizado de máquina comuns, como classificação bayesiana ingênua ou clustering. O Spark Streaming permite o processamento em alta velocidade de dados ingeridos de várias fontes e o GraphX ​​permite cálculos em dados gráficos.

  • API estável - Com a versão 1.0, o Apache Spark oferece uma API estável (interface de programação de aplicativo), que os desenvolvedores podem usar para interagir com o Spark por meio de seus próprios aplicativos. Isso ajuda a usar o Storm com mais facilidade na implantação baseada em Hadoop.

  • Componente SPARK SQL - Componente Spark SQL para acessar dados estruturados, permite que os dados sejam interrogados juntamente com dados não estruturados no trabalho de análise. Spark SQL, que está apenas em alfa no momento, permite que consultas semelhantes a SQL sejam executadas em dados armazenados no Apache Hive. Extrair dados do Hadoop por meio de consultas SQL é outra variante da funcionalidade de consulta em tempo real que surge em torno do Hadoop.

  • Compatibilidade do Apache Spark com Hadoop [HDFS, HBASE e YARN] - O Apache Spark é totalmente compatível com o sistema de arquivos distribuído do Hadoop (HDFS), bem como com outros componentes do Hadoop, como YARN (Yet Another Resource Negotiator) e o banco de dados distribuído HBase.

    como usar anaconda para python

Adotantes da indústria:

Empresas de TI como Cloudera, Pivotal, IBM, Intel e MapR incorporaram o Spark em suas pilhas Hadoop. A Databricks, empresa fundada por alguns dos desenvolvedores do Spark, oferece suporte comercial para o software. Tanto o Yahoo quanto a NASA, entre outros, usam o software para operações diárias de dados.

Conclusão:

O que o Spark tem a oferecer é um grande atrativo para usuários e fornecedores comerciais do Hadoop. Os usuários que procuram implementar o Hadoop e que já construíram muitos de seus sistemas analíticos em torno do Hadoop são atraídos pela ideia de poder usar o Hadoop como um sistema de processamento em tempo real.

iso 9000 vs six sigma

O Spark 1.0 fornece a eles outra variedade de funcionalidades para dar suporte ou construir itens proprietários. Na verdade, um dos três grandes fornecedores de Hadoop, Cloudera, já fornece suporte comercial para Spark por meio de sua oferta Cloudera Enterprise. A Hortonworks também oferece o Spark como um componente de sua distribuição Hadoop. A implementação do Spark em grande escala pelas principais empresas indica seu sucesso e seu potencial quando se trata de processamento em tempo real.

Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.

Postagens relacionadas: