Programação do Pig: crie seu primeiro script do Apache Pig
Na nossa , agora aprenderemos como criar um script Apache Pig. Os scripts do Apache Pig são usados para executar um conjunto de comandos do Apache Pig coletivamente. Isso ajuda a reduzir o tempo e o esforço investidos na escrita e execução de cada comando manualmente ao fazer isso na programação do Pig.Também é parte integrante do .Este blog é um guia passo a passo para ajudá-lo a criar seu primeiro script Apache Pig.
Modos de execução do script Apache Pig
Modo local : No ‘modo local’, você pode executar o script pig no sistema de arquivos local. Nesse caso, você não precisa armazenar os dados no sistema de arquivos Hadoop HDFS; em vez disso, você pode trabalhar com os dados armazenados no próprio sistema de arquivos local.
programação de soquete tcp em java
Modo MapReduce : No 'modo MapReduce', os dados precisam ser armazenados no sistema de arquivos HDFS e você pode processar os dados com a ajuda do script pig.
Script Apache Pig no modo MapReduce
Digamos que nossa tarefa seja ler os dados de um arquivo de dados e exibir o conteúdo necessário no terminal como saída.
O arquivo de dados de amostra contém os seguintes dados:
Salve o arquivo de texto com o nome ‘information.txt’
O arquivo de dados de amostra contém cinco colunas Primeiro nome , Último nome , MobileNo , Cidade , e Profissão separado por Tecla de tabulação . Nossa tarefa é ler o conteúdo deste arquivo do HDFS e exibir todas as colunas desses registros.
Para processar esses dados usando Pig, esse arquivo deve estar presente no Apache Hadoop HDFS.
Comando : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
Passo 1: Escrevendo um script Pig
Crie e abra um arquivo de script do Apache Pig em um editor (por exemplo, gedit).
Comando : sudo gedit /home/edureka/output.pig
Este comando criará um arquivo ‘output.pig’ dentro do diretório inicial do usuário edureka.
Vamos escrever alguns comandos PIG no arquivo output.pig.
A = LOAD '/edureka/information.txt' usando PigStorage ('') como (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profissão: chararray) B = FOREACH A gera FName, MobileNo, Profession DUMP B
Salve e feche o arquivo.
- O primeiro comando carrega o arquivo ‘information.txt’ na variável A com esquema indireto (FName, LName, MobileNo, City, Profession).
- O segundo comando carrega os dados necessários da variável A para a variável B.
- A terceira linha exibe o conteúdo da variável B no terminal / console.
Passo 2: Execute o script Apache Pig
Para executar o script pig no modo HDFS, execute o seguinte comando:
Comando : pig /home/edureka/output.pig
Após o término da execução, analise o resultado. As imagens abaixo mostram os resultados e seu mapa intermediário e funções de redução.
A imagem abaixo mostra que o Script foi executado com sucesso.
A imagem abaixo mostra o resultado do nosso script.
Parabéns por executar seu primeiro script Apache Pig com sucesso!
como analisar arquivo xml em java
Agora você sabe como criar e executar o script do Apache Pig. Portanto, nosso próximo blog em estará cobrindo como criar UDF (funções definidas pelo usuário) no Apache Pig e execute-o no modo MapReduce / HDFS.
Agora que você criou e executou o Apache Pig Script, verifique o pela Edureka, uma empresa de aprendizagem online confiável com uma rede de mais de 250.000 alunos satisfeitos espalhados por todo o mundo. O curso Edureka Big Data Hadoop Certification Training ajuda os alunos a se tornarem especialistas em HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume e Sqoop usando casos de uso em tempo real no varejo, mídia social, aviação, turismo, domínio financeiro.
Tem alguma questão para nós? Mencione isso na seção de comentários e entraremos em contato com você.