Apache Flink: a próxima geração de estrutura de análise de Big Data para processamento de dados em lote e stream



Saiba tudo sobre o Apache Flink e a configuração de um cluster Flink neste blog. Flink suporta processamento em lote e em tempo real e é uma tecnologia de Big Data obrigatória para Big Data Analytics.

Apache Flink é uma plataforma de código aberto para fluxo distribuído e processamento de dados em lote. Ele pode ser executado em Windows, Mac OS e Linux OS. Nesta postagem do blog, vamos discutir como configurar o cluster Flink localmente. É semelhante ao Spark de muitas maneiras - tem APIs para processamento de Graph e Machine Learning como o Apache Spark - mas o Apache Flink e o Apache Spark não são exatamente os mesmos.





Para configurar o cluster Flink, você deve ter java 7.x ou superior instalado em seu sistema. Como tenho o Hadoop-2.2.0 instalado no CentOS (Linux), baixei o pacote Flink, que é compatível com o Hadoop 2.x. Execute o comando abaixo para baixar o pacote Flink.

Comando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Descompacte o arquivo para obter o diretório flink.

Comando: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Comando: ls

Adicione variáveis ​​de ambiente Flink no arquivo .bashrc.

Comando: sudo gedit .bashrc

Você precisa executar o comando abaixo para que as alterações no arquivo .bashrc sejam ativadas

Comando: source .bashrc

Agora vá para o diretório flink e inicie o cluster localmente.

Comando: cd hefty-1.0.0

Comando: bin / start-local.sh

Depois de iniciar o cluster, você poderá ver um novo daemon JobManager em execução.

Comando: jps

transformar string em array php

Abra o navegador e vá para http: // localhost: 8081 para ver a interface de usuário da web do Apache Flink.

Vamos executar um exemplo simples de contagem de palavras usando o Apache Flink.

Antes de executar o exemplo, instale o netcat em seu sistema (sudo yum install nc).

Agora, em um novo terminal, execute o comando abaixo.

Comando: nc -lk 9000

Execute o comando fornecido abaixo no terminal flink. Este comando executa um programa que recebe os dados transmitidos como entrada e executa a operação de contagem de palavras nesses dados transmitidos.

Comando: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

Na interface do usuário da web, você poderá ver um trabalho em estado de execução.

Execute o comando abaixo em um novo terminal, isso imprimirá os dados transmitidos e processados.

Comando: tail -f log / flink - * - jobmanager - *. out

Agora vá para o terminal onde você iniciou o netcat e digite algo.

No momento em que você pressiona o botão enter em sua palavra-chave depois de digitar alguns dados no terminal netcat, a operação de contagem de palavras será aplicada a esses dados e a saída será impressa aqui (log do gerenciador de tarefas do flink) em milissegundos!

Em um período de tempo muito curto, os dados serão transmitidos, processados ​​e impressos.

Há muito mais para aprender sobre o Apache Flink. Abordaremos outros tópicos do Flink em nosso próximo blog.

Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.

Postagens relacionadas:

Apache Falcon: nova plataforma de gerenciamento de dados para o ecossistema Hadoop