Hadoop dominado? É hora de começar a usar o Apache Spark



Esta postagem do blog explica por que você deve começar a usar o Apache Spark após o Hadoop e por que aprender o Spark depois de dominar o hadoop pode fazer maravilhas pela sua carreira!

Hadoop, como todos sabemos, é o garoto-propaganda do big data. Como uma estrutura de software capaz de processar proporções elefantinas de dados, o Hadoop alcançou o topo da lista de palavras-chave do CIO.





No entanto, o aumento sem precedentes da pilha na memória apresentou ao ecossistema de big data uma nova alternativa para análise. A forma de análise MapReduce está sendo substituída por uma nova abordagem que permite análises tanto dentro da estrutura do Hadoop quanto fora dela. Apache Spark é a nova cara da análise de big data.

uso de iterador em java

Os entusiastas de big data certificaram o Apache Spark como o mecanismo de computação de dados mais eficiente do mundo para big data. É rápido ejetar MapReduce e Java de seus cargos, e as tendências de trabalho estão refletindo essa mudança. De acordo com uma pesquisa da TypeSafe, 71% dos desenvolvedores globais de Java estão atualmente avaliando ou pesquisando em torno do Spark, e 35% deles já começaram a usá-lo. Os especialistas em Spark estão atualmente em demanda e, nas semanas que se seguem, o número de oportunidades de trabalho relacionadas a Spark deve subir às alturas.



Então, o que há no Apache Spark que o faz aparecer no topo da lista de tarefas de todos os CIOs?

Aqui estão alguns dos recursos interessantes do Apache Spark:

  • Integração Hadoop - O Spark pode trabalhar com arquivos armazenados no HDFS.
  • Shell Interativo do Spark - O Spark é escrito em Scala e possui sua própria versão do interpretador Scala.
  • Suíte Analítica do Spark - O Spark vem com ferramentas para análise de consulta interativa, processamento e análise de gráficos em grande escala e análise em tempo real.
  • Conjuntos de dados distribuídos resilientes (RDDs) - RDDs são objetos distribuídos que podem ser armazenados em cache na memória, em um cluster de nós de computação. Eles são os principais objetos de dados usados ​​no Spark.
  • Operadores Distribuídos - Além do MapReduce, existem muitos outros operadores que podem ser usados ​​em RDDs.

Organizações como NASA, Yahoo e Adobe se comprometeram com o Spark. Isso é o que John Tripier, líder de alianças e ecossistema da Databricks tem a dizer: “A adoção do Apache Spark por empresas grandes e pequenas está crescendo a uma taxa incrível em uma ampla gama de setores, e a demanda por desenvolvedores com experiência certificada é rápida Seguindo o exemplo'. Nunca houve um momento melhor para aprender o Spark se você tiver experiência em Hadoop.



java c ++ python

Edureka curou especialmente um curso sobre Apache Spark & ​​Scala, co-criado por profissionais da indústria da vida real. Para uma experiência diferenciada de e-learning ao vivo junto com projetos relevantes para o setor, confira nosso curso. Novos lotes começarão em breve, então confira o curso aqui: .

Tem alguma questão para nós? Mencione isso na seção de comentários e entraremos em contato com você.

Postagens relacionadas:

Apache Spark Vs Hadoop MapReduce

java split string vários delimitadores