HADOOP DOMINADO? É HORA DE COMEÇAR A USAR O APACHE SPARK

Hadoop, como todos sabemos, é o garoto-propaganda do big data. Como uma estrutura de software capaz de processar proporções elefantinas de dados, o Hadoop alcançou o topo da lista de palavras-chave do CIO.

No entanto, o aumento sem precedentes da pilha na memória apresentou ao ecossistema de big data uma nova alternativa para análise. A forma de análise MapReduce está sendo substituída por uma nova abordagem que permite análises tanto dentro da estrutura do Hadoop quanto fora dela. Apache Spark é a nova cara da análise de big data.

uso de iterador em java

Os entusiastas de big data certificaram o Apache Spark como o mecanismo de computação de dados mais eficiente do mundo para big data. É rápido ejetar MapReduce e Java de seus cargos, e as tendências de trabalho estão refletindo essa mudança. De acordo com uma pesquisa da TypeSafe, 71% dos desenvolvedores globais de Java estão atualmente avaliando ou pesquisando em torno do Spark, e 35% deles já começaram a usá-lo. Os especialistas em Spark estão atualmente em demanda e, nas semanas que se seguem, o número de oportunidades de trabalho relacionadas a Spark deve subir às alturas.

Então, o que há no Apache Spark que o faz aparecer no topo da lista de tarefas de todos os CIOs?

Aqui estão alguns dos recursos interessantes do Apache Spark:

Integração Hadoop - O Spark pode trabalhar com arquivos armazenados no HDFS.
Shell Interativo do Spark - O Spark é escrito em Scala e possui sua própria versão do interpretador Scala.
Suíte Analítica do Spark - O Spark vem com ferramentas para análise de consulta interativa, processamento e análise de gráficos em grande escala e análise em tempo real.
Conjuntos de dados distribuídos resilientes (RDDs) - RDDs são objetos distribuídos que podem ser armazenados em cache na memória, em um cluster de nós de computação. Eles são os principais objetos de dados usados no Spark.
Operadores Distribuídos - Além do MapReduce, existem muitos outros operadores que podem ser usados em RDDs.

Organizações como NASA, Yahoo e Adobe se comprometeram com o Spark. Isso é o que John Tripier, líder de alianças e ecossistema da Databricks tem a dizer: “A adoção do Apache Spark por empresas grandes e pequenas está crescendo a uma taxa incrível em uma ampla gama de setores, e a demanda por desenvolvedores com experiência certificada é rápida Seguindo o exemplo'. Nunca houve um momento melhor para aprender o Spark se você tiver experiência em Hadoop.

java c ++ python

Edureka curou especialmente um curso sobre Apache Spark & Scala, co-criado por profissionais da indústria da vida real. Para uma experiência diferenciada de e-learning ao vivo junto com projetos relevantes para o setor, confira nosso curso. Novos lotes começarão em breve, então confira o curso aqui: .

Tem alguma questão para nós? Mencione isso na seção de comentários e entraremos em contato com você.

Postagens relacionadas:

Apache Spark Vs Hadoop MapReduce

java split string vários delimitadores

Hadoop dominado? É hora de começar a usar o Apache Spark

Esta postagem do blog explica por que você deve começar a usar o Apache Spark após o Hadoop e por que aprender o Spark depois de dominar o hadoop pode fazer maravilhas pela sua carreira!

Categorias

Popular Articles

Quais são os desafios e limitações do selênio?

Como você deve filtrar seus dados no Tableau?

O que é Ethereum? Uma plataforma para descentralizar o mundo

Segurança de microsserviços Como proteger sua infraestrutura de microsserviços?

Matriz de confusão em aprendizado de máquina: sua solução única

Aplicativos de animação de AngularJS com ngAnimate

Como implementar classe de adaptador em Java

O que é programação de soquete em Python e como dominá-la?

Saiba como realizar testes entre navegadores usando Selenium

Preços do Google Cloud - Calculadora de preços do Google Cloud Platform

Comandos do Linux no DevOps: deve saber para cada profissional DevOps

Principais estruturas de dados e algoritmos em Java que você precisa saber