Informatica ETL: um guia para iniciantes para entender o ETL usando o Informatica PowerCenter



Compreender os conceitos do Informatica ETL e as várias etapas do processo ETL e praticar um caso de uso envolvendo banco de dados de funcionários.

O objetivo do Informatica ETL é fornecer aos usuários, não apenas um processo de extração de dados dos sistemas de origem e trazê-los para o data warehouse, mas também fornecer aos usuários uma plataforma comum para integrar seus dados de várias plataformas e aplicativos.Isso levou a um aumento na demanda por .Antes de falarmos sobre o Informatica ETL, vamos primeiro entender por que precisamos do ETL.

Por que precisamos de ETL?

Cada empresaesses dias tem que processar grandes conjuntos de dados de fontes variadas. Esses dados precisam ser processados ​​para fornecer informações perspicazes para a tomada de decisões de negócios. Mas, muitas vezes, esses dados apresentam os seguintes desafios:





  • Grandes empresas geram muitos dados e esse grande bloco de dados pode estar em qualquer formato. Eles estariam disponíveis em vários bancos de dados e muitos arquivos não estruturados.
  • Esses dados devem ser agrupados, combinados, comparados e feitos para funcionar como um todo integrado. Mas os diferentes bancos de dados não se comunicam bem!
  • Muitas organizações implementaram interfaces entre esses bancos de dados, mas enfrentaram os seguintes desafios:
    • Cada par de bancos de dados requer uma interface exclusiva.
    • Se você alterar um banco de dados, muitas interfaces podem precisar ser atualizadas.

Abaixo você pode ver os vários bancos de dados de uma organização e suas interações:

Vários conjuntos de dados de uma organização - Informatica - ETL - Edureka

Vários bancos de dados usados ​​por diferentes departamentos de uma organização



Diferentes interações dos bancos de dados em uma organização

Como visto acima, uma organização pode ter vários bancos de dados em seus vários departamentos e a interação entre eles se torna difícil de implementar, pois várias interfaces de interação devem ser criadas para eles. Para superar esses desafios, a melhor solução possível é usar os conceitos de Integração de dados o que permitiria que dados de diferentes bancos de dados e formatos se comunicassem entre si. A figura abaixo nos ajuda a entender como a ferramenta Data Integration se torna uma interface comum para comunicação entre os diversos bancos de dados.

Vários bancos de dados conectados via integração de dados



Mas existem diferentes processos disponíveis para realizar a integração de dados. Entre esses processos, ETL é o processo mais ideal, eficiente e confiável. Por meio do ETL, o usuário pode não apenas trazer os dados de várias fontes, mas também executar as várias operações nos dados antes de armazená-los no destino final.

Dentre as várias ferramentas ETL disponíveis no mercado, o Informatica PowerCenter é a plataforma de integração de dados líder do mercado. Tendo testado em quase 500.000 combinações de plataformas e aplicativos, o Informatica PowerCenter inter opera com a mais ampla gama possível de padrões, sistemas e aplicativos díspares. Vamos agora entender as etapas envolvidas no processo de ETL da Informatica.

Informática ETL | Arquitetura Informatica | Tutorial do Informatica PowerCenter | Edureka

Este tutorial da Edureka Informatica ajuda a compreender os fundamentos do ETL usando o Informatica Powercenter em detalhes.

Etapas do processo ETL da Informatica:

Antes de passarmos para as várias etapas envolvidas no ETL da Informatica, vamos ter uma visão geral do ETL. Em ETL, Extração é onde os dados são extraídos de fontes de dados homogêneas ou heterogêneas, Transformação onde os dados são transformados para armazenamento no formato ou estrutura apropriada para fins de consulta e análise e Carregamento onde os dados são carregados no banco de dados de destino final, armazenamento de dados operacional, data mart ou data warehouse. A imagem abaixo ajudará você a entender como ocorre o processo de ETL da Informatica.

Visão geral do processo ETL

Conforme visto acima, o Informatica PowerCenter pode carregar dados de várias fontes e armazená-los em um único data warehouse. Agora, vamos examinar as etapas envolvidas no processo de ETL da Informatica.

Existem basicamente 4 etapas no processo de ETL da Informatica, vamos agora entendê-las em profundidade:

  1. Extrair ou capturar
  2. Esfregar ou limpar
  3. Transformar
  4. Carregar e indexar

1. Extrair ou capturar: Conforme visto na imagem abaixo, a Captura ou Extração é a primeira etapa do processo ETL da Informatica.É o processo de obtenção de um instantâneo do subconjunto de dados escolhido da origem, que deve ser carregado no data warehouse. Um instantâneo é uma exibição estática somente leitura dos dados no banco de dados. O processo de extração pode ser de dois tipos:

  • Extrato completo: Os dados são extraídos completamente do sistema de origem e não há necessidade de controlar as alterações na fonte de dados desde a última extração bem-sucedida.
  • Extrato incremental: Isso irá capturar apenas as alterações que ocorreram desde a última extração completa.

Fase 1: Extrair ou Capturar

2. Esfregue ou limpe: Este é o processo de limpeza dos dados provenientes da fonte usando várias técnicas de reconhecimento de padrões e IA para atualizar a qualidade dos dados levados adiante. Normalmente, os erros como erros ortográficos, datas erradas, uso de campo incorreto, endereços incompatíveis, dados ausentes, dados duplicados, inconsistências sãodestacado e depois corrigido ou removidonesta etapa. Além disso, operações como decodificação, reformatação, carimbo de data / hora, conversão, geração de chave, mesclagem, detecção / registro de erros e localização de dados ausentes são feitas nesta etapa. Conforme visto na imagem abaixo, esta é a segunda etapa do processo ETL da Informatica.

Fase 2: Limpeza ou limpeza de dados

3. Transformar: Conforme visto na imagem abaixo, esta é a terceira e mais essencial etapa do processo de ETL da Informatica. Transformações é a operação de conversão de dados do formato do sistema de origem para o esqueleto do Data Warehouse. Uma transformação é basicamente usada para representar um conjunto de regras, que definem o fluxo de dados e como os dados são carregados nos destinos. Para saber mais sobre Transformação, confira Transformações na Informatica Blog.

Fase 3: Transformação

4. Carregar e indexar: Esta é a etapa final do processo de ETL da Informatica, conforme mostrado na imagem abaixo. Neste estágio, colocamos os dados transformados no warehouse e criamos índices para os dados. Existem dois tipos principais de carga de dados disponíveis com base no processo de carga:

  • Carga total ou carga em massa :O processo de carregamento de dados quando o fazemos pela primeira vez. O trabalho extrai todo o volume de dados de uma tabela de origem e carrega no data warehouse de destino após aplicar as transformações necessárias. Será um trabalho executado uma vez, depois que as alterações sozinhas forem capturadas como parte de uma extração incremental.
  • Carga incremental ou carga de atualização : Os dados modificados sozinhos serão atualizados no destino, seguidos por carregamento completo. As alterações serão capturadas comparando a data de criação ou modificação com a data da última execução do trabalho.Os dados modificados são extraídos da origem e serão atualizados no destino sem afetar os dados existentes.

Fase 4: carga e índice

Se você entendeu o processo de ETL da Informatica, agora estamos em uma posição melhor para avaliar por que a Informatica é a melhor solução nesses casos.

Recursos do Informatica ETL:

Para todas as operações de integração de dados e ETL, a Informatica nos forneceu Informatica PowerCenter . Vamos agora ver alguns dos principais recursos do Informatica ETL:

  • Fornece facilidade para especificar um grande número de regras de transformação com uma GUI.
  • Gere programas para transformar dados.
  • Manipule várias fontes de dados.
  • Suporta extração de dados, limpeza, agregação, reorganização, transformação e operações de carregamento.
  • Gera automaticamente programas para extração de dados.
  • Carregamento em alta velocidade de data warehouses de destino.

Abaixo estão alguns dos cenários típicos nos quais o Informatica PowerCenter está sendo usado:

  1. Migração de dados:

Uma empresa adquiriu um novo aplicativo de contas a pagar para seu departamento de contas. O PowerCenter pode mover os dados da conta existente para o novo aplicativo. A figura abaixo ajudará você a entender como você pode usar o Informatica PowerCenter para migração de dados. O Informatica PowerCenter pode facilmente preservar a linhagem de dados para fins fiscais, contábeis e outros fins legalmente exigidos durante o processo de migração de dados.

Migração de dados de um aplicativo de contabilidade mais antigo para um novo aplicativo

  1. Integração de aplicativos:

Digamos que a Empresa-A adquira a Empresa-B. Portanto, para obter os benefícios da consolidação, o sistema de faturamento da Empresa-B deve ser integrado ao sistema de faturamento da Empresa-A, o que pode ser feito facilmente usando o Informatica PowerCenter. A figura abaixo o ajudará a entender como você pode usar o Informatica PowerCenter para a integração de aplicativos entre as empresas.

Aplicação de integração entre empresas

  1. Armazenamento de dados

As ações típicas exigidas em data warehouses são:

  • Combinar informações de várias fontes para análise.
  • Movendo dados de muitos bancos de dados para o data warehouse.

Todos os casos típicos acima podem ser facilmente executados usando o Informatica PowerCenter. Abaixo, você pode ver que o Informatica PowerCenter está sendo usado para combinar os dados de vários tipos de bancos de dados, como Oracle, SalesForce, etc. e trazendo-os para um data warehouse comum criado pelo Informatica PowerCenter.

Dados de vários bancos de dados integrados a um data warehouse comum

  1. Middleware

Digamos que uma organização de varejo esteja usando SAP R3 para seus aplicativos de varejo e SAP BW como seu data warehouse. Uma comunicação direta entre esses dois aplicativos não é possível devido à falta de uma interface de comunicação. No entanto, o Informatica PowerCenter pode ser usado como um Middleware entre esses dois aplicativos. Na imagem abaixo, você pode ver a arquitetura de como o Informatica PowerCenter está sendo usado como middleware entre SAP R / 3 e SAP BW. Os aplicativos do SAP R / 3 transferem seus dados para a estrutura ABAP, que então os transfere para oPonto de Venda SAP (POS) e SAPContas de serviços (BOS). O Informatica PowerCenter ajuda na transferência de dados desses serviços para o SAP Business Warehouse (BW).

Informatica PowerCenter como Middleware na Arquitetura SAP Retail

Embora você tenha visto alguns recursos principais e cenários típicos do Informatica ETL, espero que você entenda por que o Informatica PowerCenter é a melhor ferramenta para o processo de ETL. Vejamos agora um caso de uso do Informatica ETL.

Caso de uso: juntando duas tabelas para obter uma única tabela detalhada

Digamos que você deseja fornecer transporte inteligente do departamento para seus funcionários, uma vez que os departamentos estão localizados em vários locais. Para fazer isso, primeiro você precisa saber a qual departamento cada funcionário pertence e a localização do departamento. No entanto, os detalhes dos funcionários são armazenados em tabelas diferentes e você precisa juntar os detalhes do Departamento a um banco de dados existente com os detalhes de todos os funcionários. Para fazer isso, primeiro carregaremos as duas tabelas no Informatica PowerCenter, realizaremos a Transformação do Qualificador de Origem nos dados e, por fim, carregaremos os detalhes no Banco de Dados de Destino.Comecemos:

Passo 1 : Abra o PowerCenter Designer.

Abaixo está a página inicial do Informatica PowerCenter Designer.

Vamos agora conectar ao repositório. Caso você não tenha configurado seus repositórios ou esteja enfrentando algum problema, você pode verificar nosso Blog.

Passo 2: Clique com o botão direito no seu repositório e selecione a opção de conexão.

Ao clicar na opção de conexão, será exibida a tela abaixo, solicitando seu nome de usuário e senha do repositório.

Depois de se conectar ao seu repositório, você deve abrir sua pasta de trabalho, conforme mostrado abaixo:

Você será solicitado a perguntar o nome do seu mapeamento. Especifique o nome do seu mapeamento e clique em OK (chamei-o de m-FUNCIONÁRIO )

Etapa 3: Vamos agora carregar as tabelas do banco de dados, comece conectando-se ao banco de dados. Para fazer isso, selecione a guia Fontes e a opção Importar do banco de dados, conforme mostrado abaixo:

Ao clicar em Importar do Banco de Dados, será exibida a tela abaixo solicitando os detalhes do seu Banco de Dados e seu Nome de Usuário e Senha para conexão (estou usando o banco de dados oracle e usuário HR).

Clique em Conectar para se conectar ao seu banco de dados.

Passo 4: Como desejo juntar-me ao FUNCIONÁRIOS e DEPARTAMENTO tabelas, irei selecioná-las e clicar em OK.
As fontes estarão visíveis em sua área de trabalho do designer de mapeamento, conforme mostrado abaixo.

Etapa 5: Da mesma forma, carregue a tabela de destino no mapeamento.

diff entre hashmap e hashtable

Etapa 6: Agora, vamos vincular o qualificador de origem e a tabela de destino. Clique com o botão direito em qualquer espaço em branco da área de trabalho e selecione Autolink como visto abaixo:

Abaixo está o mapeamento vinculado pelo Autolink.

Etapa 7: Como precisamos vincular as duas tabelas ao Qualificador de origem, selecione as colunas da tabela Departamento e solte-as no Qualificador de origem, conforme mostrado abaixo:

Solte os valores da coluna no Qualificador de Origem SQ_EMPLOYEES .

Abaixo está o qualificador de origem atualizado.

Etapa 8: Clique duas vezes no Qualificador de Origem para editar a transformação.

Você obterá o pop-up Editar Transformação, conforme mostrado abaixo. Clique na guia Propriedades.

Etapa 9: Na guia Propriedades, clique no campo Valor da linha UserDefined Join.

Você obterá o seguinte Editor SQL:

Etapa 10: Entrar EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID como condição para unir as duas tabelas no campo SQL e clicar em OK.

Etapa 11: Agora clique na linha SQL Query para gerar o SQL para junção, conforme mostrado abaixo:

Você obterá o seguinte Editor SQL, clique na opção Gerar SQL.

O seguinte SQL será gerado para a condição que especificamos na etapa anterior. Clique em OK.

Etapa 12: Clique em Aplicar e OK.

Abaixo está o mapeamento concluído.

Concluímos o projeto de como os dados devem ser transferidos da origem para o destino. Porém, a transferência real de dados ainda não aconteceu e para isso precisamos usar o Design de Fluxo de Trabalho do PowerCenter. A execução do fluxo de trabalho levará à transferência de dados da origem para o destino. Para saber mais sobre o fluxo de trabalho, verifique nosso Tutorial da Informatica: Fluxo de Trabalho Blog

Etapa 13: euVamos agora iniciar o Workflow Manager clicando no ícone W conforme mostrado abaixo:

Abaixo está a página inicial do designer de fluxo de trabalho.

Etapa 14: Vamos agora criar um novo fluxo de trabalho para nosso mapeamento. Clique na guia Fluxo de trabalho e selecione Criar opção.

Você obterá o pop-up abaixo. Especifique o nome do seu fluxo de trabalho e clique em OK.

Etapa 15 : Depois que um fluxo de trabalho é criado, obtemos o ícone Iniciar no espaço de trabalho do Workflow Manager.

Vamos agora adicionar uma nova Sessão ao espaço de trabalho, conforme visto abaixo, clicando no ícone da sessão e clicando no espaço de trabalho:

Clique na área de trabalho para colocar o ícone da Sessão.

Etapa 16: Ao adicionar a sessão, você deve selecionar o mapeamento que criou e salvou nas etapas acima. (Eu salvei como m-EMPLOYEE).

Abaixo está a área de trabalho após adicionar o ícone da sessão.

Etapa 17 : Agora que você criou uma nova Sessão, precisamos vinculá-la à tarefa inicial. Podemos fazer isso clicando no ícone Link Task conforme mostrado abaixo:

Clique no ícone Iniciar primeiro e, em seguida, no ícone Sessão para estabelecer um link.

Abaixo está um fluxo de trabalho conectado.

Etapa 18: Agora que concluímos o design, vamos iniciar o fluxo de trabalho. Clique na guia Fluxo de trabalho e selecione a opção Iniciar fluxo de trabalho.

Gerenciador de fluxo de trabalho iniciando o Workflow Monitor.

Etapa 19 : Assim que iniciarmos o fluxo de trabalho, o Workflow Manager será iniciado automaticamenteepermite monitorar a execução do seu fluxo de trabalho. Abaixo, você pode ver que o Workflow Monitor mostra o status do seu fluxo de trabalho.

Etapa 20: Para verificar o status do fluxo de trabalho, clique com o botão direito do mouse no fluxo de trabalho e selecione Obter Propriedades de Execução conforme mostrado abaixo:

Selecione a guia Estatísticas de origem / destino.

Abaixo você pode ver o número de linhas que foram transferidas entre a origem e o destino após a transformação.

Você também pode verificar seu resultado verificando sua tabela de destino, conforme mostrado abaixo.

Espero que este blog do Informatica ETL tenha sido útil para aumentar seu entendimento sobre os conceitos de ETL usando a Informatica e tenha gerado interesse suficiente para você aprender mais sobre a Informatica.

Se você achou este blog útil, também pode conferir nossa série de blogs Tutorial da Informatica , Tutorial da Informatica: Compreendendo a Informatica de 'dentro para fora' e Transformações da Informatica: o coração e a alma do Informatica PowerCenter . Caso esteja procurando detalhes sobre a Certificação Informatica, você pode conferir nosso blog Certificação Informatica: Tudo o que há para saber .

Se você já decidiu seguir carreira na Informatica, recomendo que dê uma olhada em nosso página do curso. O treinamento de certificação da Informatica na Edureka tornará você um especialista em Informatica por meio de sessões ao vivo com instrutor e treinamento prático usando casos de uso da vida real.