Apache Flink é uma plataforma de código aberto para fluxo distribuído e processamento de dados em lote. Ele pode ser executado em Windows, Mac OS e Linux OS. Nesta postagem do blog, vamos discutir como configurar o cluster Flink localmente. É semelhante ao Spark de muitas maneiras - tem APIs para processamento de Graph e Machine Learning como o Apache Spark - mas o Apache Flink e o Apache Spark não são exatamente os mesmos.
Para configurar o cluster Flink, você deve ter java 7.x ou superior instalado em seu sistema. Como tenho o Hadoop-2.2.0 instalado no CentOS (Linux), baixei o pacote Flink, que é compatível com o Hadoop 2.x. Execute o comando abaixo para baixar o pacote Flink.
Comando: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Descompacte o arquivo para obter o diretório flink.
Comando: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Comando: ls
Adicione variáveis de ambiente Flink no arquivo .bashrc.
Comando: sudo gedit .bashrc
Você precisa executar o comando abaixo para que as alterações no arquivo .bashrc sejam ativadas
Comando: source .bashrc
Agora vá para o diretório flink e inicie o cluster localmente.
Comando: cd hefty-1.0.0
Comando: bin / start-local.sh
Depois de iniciar o cluster, você poderá ver um novo daemon JobManager em execução.
Comando: jps
transformar string em array php
Abra o navegador e vá para http: // localhost: 8081 para ver a interface de usuário da web do Apache Flink.
Vamos executar um exemplo simples de contagem de palavras usando o Apache Flink.
Antes de executar o exemplo, instale o netcat em seu sistema (sudo yum install nc).
Agora, em um novo terminal, execute o comando abaixo.
Comando: nc -lk 9000
Execute o comando fornecido abaixo no terminal flink. Este comando executa um programa que recebe os dados transmitidos como entrada e executa a operação de contagem de palavras nesses dados transmitidos.
Comando: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
Na interface do usuário da web, você poderá ver um trabalho em estado de execução.
Execute o comando abaixo em um novo terminal, isso imprimirá os dados transmitidos e processados.
Comando: tail -f log / flink - * - jobmanager - *. out
Agora vá para o terminal onde você iniciou o netcat e digite algo.
No momento em que você pressiona o botão enter em sua palavra-chave depois de digitar alguns dados no terminal netcat, a operação de contagem de palavras será aplicada a esses dados e a saída será impressa aqui (log do gerenciador de tarefas do flink) em milissegundos!
Em um período de tempo muito curto, os dados serão transmitidos, processados e impressos.
Há muito mais para aprender sobre o Apache Flink. Abordaremos outros tópicos do Flink em nosso próximo blog.
Tem alguma questão para nós? Mencione-os na seção de comentários e entraremos em contato com você.
Postagens relacionadas:
Apache Falcon: nova plataforma de gerenciamento de dados para o ecossistema Hadoop