Hadoop é uma estrutura de programação baseada em Java disruptiva que suporta o processamento de grandes conjuntos de dados em um ambiente de computação distribuída, enquanto R é uma linguagem de programação e ambiente de software para computação estatística e gráficos. A linguagem R é amplamente usada entre estatísticos e mineradores de dados para desenvolver software estatístico e realizar análises de dados. Nas áreas de análise de dados interativos, estatísticas de propósito geral e modelagem preditiva, R ganhou enorme popularidade devido aos seus recursos de classificação, agrupamento e classificação.
Hadoop e R se complementam muito bem em termos de visualização e análise de big data.
Usando R e Hadoop
Existem quatro maneiras diferentes de usar Hadoop e R juntos:
1. RHadoop
converter decimal em binário em python
RHadoop é uma coleção de três pacotes R: rmr, rhdfs e rhbase. O pacote rmr fornece a funcionalidade Hadoop MapReduce em R, rhdfs fornece gerenciamento de arquivos HDFS em R e rhbase fornece gerenciamento de banco de dados HBase de dentro de R. Cada um desses pacotes primários pode ser usado para analisar e gerenciar melhor os dados da estrutura Hadoop.
2 ORCH
ORCH significa Conector Oracle R para Hadoop. É uma coleção de pacotes R que fornecem as interfaces relevantes para trabalhar com tabelas Hive, a infraestrutura de computação Apache Hadoop, o ambiente R local e tabelas de banco de dados Oracle. Além disso, o ORCH também fornece técnicas analíticas preditivas que podem ser aplicadas a dados em arquivos HDFS.
3 - RHIPE
RHIPE é um pacote R que fornece uma API para usar o Hadoop. RHIPE significa R e Hadoop Integrated Programming Environment, e é essencialmente RHadoop com uma API diferente.
como gerar string aleatória em java
Quatro. Streaming Hadoop
Hadoop Streaming é um utilitário que permite aos usuários criar e executar trabalhos com qualquer executável como mapeador e / ou redutor. Usando o sistema de streaming, é possível desenvolver jobs Hadoop funcionais com conhecimento suficiente de Java para escrever dois scripts de shell que funcionam em conjunto.
A combinação de R e Hadoop está emergindo como um kit de ferramentas obrigatório para pessoas que trabalham com estatísticas e grandes conjuntos de dados. No entanto, alguns entusiastas do Hadoop levantaram uma bandeira vermelha ao lidar com fragmentos de Big Data extremamente grandes. Eles afirmam que a vantagem do R não é sua sintaxe, mas a biblioteca exaustiva de primitivas para visualização e estatística. Essas bibliotecas são fundamentalmente não distribuídas, tornando a recuperação de dados uma tarefa demorada. Essa é uma falha inerente ao R e, se você decidir ignorá-la, R e Hadoop em conjunto ainda podem fazer maravilhas.
Agora, vamos ver uma demonstração:
Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.
Postagens relacionadas:
chamar por referência c ++