4 maneiras de usar R e Hadoop juntos



R e Hadoop se complementam muito bem em termos de visualização e análise de big data. Esta postagem do blog fala sobre 4 maneiras de usá-los juntos.

Hadoop é uma estrutura de programação baseada em Java disruptiva que suporta o processamento de grandes conjuntos de dados em um ambiente de computação distribuída, enquanto R é uma linguagem de programação e ambiente de software para computação estatística e gráficos. A linguagem R é amplamente usada entre estatísticos e mineradores de dados para desenvolver software estatístico e realizar análises de dados. Nas áreas de análise de dados interativos, estatísticas de propósito geral e modelagem preditiva, R ganhou enorme popularidade devido aos seus recursos de classificação, agrupamento e classificação.

KM





Hadoop e R se complementam muito bem em termos de visualização e análise de big data.

Usando R e Hadoop

Existem quatro maneiras diferentes de usar Hadoop e R juntos:



1. RHadoop

converter decimal em binário em python

RHadoop é uma coleção de três pacotes R: rmr, rhdfs e rhbase. O pacote rmr fornece a funcionalidade Hadoop MapReduce em R, rhdfs fornece gerenciamento de arquivos HDFS em R e rhbase fornece gerenciamento de banco de dados HBase de dentro de R. Cada um desses pacotes primários pode ser usado para analisar e gerenciar melhor os dados da estrutura Hadoop.

2 ORCH



ORCH significa Conector Oracle R para Hadoop. É uma coleção de pacotes R que fornecem as interfaces relevantes para trabalhar com tabelas Hive, a infraestrutura de computação Apache Hadoop, o ambiente R local e tabelas de banco de dados Oracle. Além disso, o ORCH também fornece técnicas analíticas preditivas que podem ser aplicadas a dados em arquivos HDFS.

3 - RHIPE

RHIPE é um pacote R que fornece uma API para usar o Hadoop. RHIPE significa R e Hadoop Integrated Programming Environment, e é essencialmente RHadoop com uma API diferente.

como gerar string aleatória em java

Quatro. Streaming Hadoop

Hadoop Streaming é um utilitário que permite aos usuários criar e executar trabalhos com qualquer executável como mapeador e / ou redutor. Usando o sistema de streaming, é possível desenvolver jobs Hadoop funcionais com conhecimento suficiente de Java para escrever dois scripts de shell que funcionam em conjunto.

A combinação de R e Hadoop está emergindo como um kit de ferramentas obrigatório para pessoas que trabalham com estatísticas e grandes conjuntos de dados. No entanto, alguns entusiastas do Hadoop levantaram uma bandeira vermelha ao lidar com fragmentos de Big Data extremamente grandes. Eles afirmam que a vantagem do R não é sua sintaxe, mas a biblioteca exaustiva de primitivas para visualização e estatística. Essas bibliotecas são fundamentalmente não distribuídas, tornando a recuperação de dados uma tarefa demorada. Essa é uma falha inerente ao R e, se você decidir ignorá-la, R e Hadoop em conjunto ainda podem fazer maravilhas.

Agora, vamos ver uma demonstração:

Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.

Postagens relacionadas:

chamar por referência c ++