segunda-feira, 21 de junho de 2021

O que é Processo ETL

 Autor: Moisés Alves Pimentel

ENEB - Escola de Negócio de Barcelona

Data: 24/03/2021


ENUNCIADO

Hierros S.A. é uma empresa familiar dedicada à venda de produtos de hardware e maquinaria localizada no bairro de Eixample de Barcelona. 

A empresa está ativa há mais de cem anos e tem um importante portfólio de clientes, a nível pessoal e profissional, cujos dados compõem uma enorme base de dados com informações realmente valiosas, dados com mais de 80 anos, aproximadamente, mas que não são usados de forma adequada. É claro que os dados dos primeiros anos foram registrados em formato de papel, mas pouco a pouco foram sendo informatizados. 

O principal problema com todos os dados e informações dos clientes reside no fato de não estarem unificados, ou seja, cada departamento tem o seu próprio banco de dados e os valores utilizados não coincidem. Além disso, alguns dados estão registados em espanhol e outros em catalão, alguns deles expressos em pesetas e outros em euros. 

Comentamos que todos os bancos de dados são informatizados em arquivos Excel, nos quais encontramos as seguintes categorias:

 - Nome e sobrenome. 

- Nome da empresa. 

- Identificação ou NIF. 

- Telefone, endereço e e-mail. 

- Histórico das compras. 

- Tíquete médio. 

- Tipos de produtos mais comprados e sua frequência. 

Em suma, Miguel, o filho do atual proprietário, vai herdar o negócio e, consciente da importância que tem para o seu desenvolvimento ter uma boa base de dados capaz de saber em primeira mão como são seus clientes, bem como para tomar decisões estrategicamente bem-sucedidas, pede ajuda a você para classificar e unificar os dados, verificar se os dados disponíveis são válidos e eliminar os que perderam a validade, tais como registros duplicados ou informações de clientes que faleceram. 

PEDE-SE 

Tendo em conta os conhecimentos obtidos durante o curso e o enunciado apresentado:

 Analisando a situação da atual base de dados de Hierros S.A., você acha que é bom para empresa realizar um processo de ETL? Justifique a sua resposta, considerando os benefícios que trariam à empresa de Miguel. Além disso, será importante estabelecer os objetivos da execução deste processo. 

A Hierros S.A por ser uma empresa com mais de 100 anos de funcionamento e possuir informações valiosas no decorrer dos últimos 80 anos, vem passando dificuldade por analisar e centralizar estas informações. 

No decorrer das décadas a empresa passou por várias mudanças nas áreas econômicas, politicas e as informações não estão unificadas, dados registrados em dois idiomas, diferentes moedas, diferentes bancos de dados para cada departamento, dados duplicados e clientes já falecidos.

 Mesmo a empresa situar em um bairro de Barcelona, e atuar na venda de produtos de hardware, a Hierros S.A possui clientes espalhado pela Espanha e Europa. 

Com isso nos últimos anos a diretoria vê a necessidade de implantação de ferramentas da ETL (Extract, Transform and Load) para ajudar na extração dos dados, transformação e armazenamento das informações para futuros estudos de direcionamento de ações estratégias de crescimento. 

A empresa por possuir muitos dados proveniente de diversas fontes, vê a necessidade de implantação da ETL, para melhor trabalhar com este acumulo de informações fazendo com que um único programa possa extrair, transformar e carregar os dados para auxiliar na tomada de decisões.

A diretoria após estudar o assunto e buscar consultoria para compreender o uso de tal ferramenta, descobriu uma seria de vantagens que a empresa conquistará em realizar o Processo ETL, que são: 


Foi sugerida a empresa uma adequação dos setores, visando melhorias e treinamento. Também foi estabelecido que todas as informações lançadas no sistema sejam unificadas para facilitar a leitura e interpretação dos dados. 

Foram apresentadas três opções de melhora de poder de processamento com suas vantagens e desvantagens para poder escolher a mais adequada para a organização e após análise e comparando as vantagens para a empresa foi escolhido o poder de processamento de crescimento vertical com Datawarehouse (DW) para trabalhar com o banco de dados.



A empresa contínua com o banco de produção com as tabelas normais e Datawarehouse trabalha criando um banco novo em tabelas com informações necessárias para o sistema, sem gasto de recursos computacional para emissão de relatórios e contribuindo ainda com economia de energia, tempo, processional, etc. 

As tabelas serão alimentadas pelo ETL que de acordo com a ENEB é uma tecnologia que tem a função de integração de dados oferecendo uma única visão dos dados. 

- Extract : Extração 
- Transform : Transformação 
- Load : Carga. 

E também a função de geri-los assegurando sua integridade, coerência e disponibilidade no destino. 

Depois de realizada a avaliação inicial foram estabelecidas metas de implementação para realizar a instalação do processo de ETL para a organização de acordo com as necessidades iniciais da empresa.


Como salienta ENEB no texto, o uso das ferramentas de ETL permitirá projetar, gerenciar e controlar todos os processos do ambiente ETL. 

Alguns exemplos de ferramentas ETL OpenSource são KETL, Talend, Jaspersoft ETL, Scriptella, e a ferramenta OpenSource por excelência, Kettle (Pentaho Data Integrator) .


2. Tendo em conta as informações que você tem da empresa coletadas em bancos de dados, você acha que seria interessante coletar outros tipos de informações? Quais informações você adicionaria? Justifique a sua resposta. 

Outros tipos de informações seriam ideais para adicionar nas categorias do banco de dados, como: 

Prazo de entrega - Para avaliar o tempo de produção até a entrega do produto seria conveniente observar se o mesmo foi obedecido ou aconteceu algo que alterasse o envio ou entrega da mercadoria. 

Devoluções – sabendo os dados das devoluções e o problema ocorrido pode ajudar a tomar medidas para contornar futuros problemas, quando a produção, armazenamento e embalagens.

 Reclamações – através dos históricos de reclamações, saberia em quais produtos ou serviços a organização deve concentrar seus esforços para desenvolver melhorias e aumentar o índice de satisfação do cliente. 

As informações e coletas de dados são de suma importância para qualquer empresa como sugere a IBC. É através deles que a organização canaliza seus esforços para melhoria e desenvolver estratégias e tomar decisões assertivas. 

Os tipos de dados da Hierros S.A consistem em dados estruturados e semiestruturados e como sugere o texto da ENEB é necessário a integração de dados através de aplicações, técnicas, produtos e tecnologias que nos permitam obter uma única visão coerente dos dados.



3. Descreva as atividades que você realizaria em cada etapa do processo ETL. 

O processo é formado por 4 etapas que são: 

- Fase de Limpeza – é o processo de limpeza de dados que foram lançados errados ou equivocados. 

- Fase de Extração – estão conectados de acordo com os objetivos marcados. Neste caso será utilizado o modo incremental extract (extração incremental) que consiste em analisar os dados que foram modificados ou adicionados. 

A utilização deste modo ajudara a apagar linhas em duplicidade ou dados lançados erroneamente, bem como evitar lentidão ou colapso no sistema. 

- Fase de Transformação – de forma padronizada e seguindo uma série de regras os dados serão convertidos. 

- Fase de Carga - é o processo mais complexo. São importados os dados já transformados para a estrutura de armazenamento que selecionamos. 

Será adotado nesta fase o Acúmulo simples por ser a maneira mais fácil de desenvolver o proceso de carregamento como sugere o texto da ENEB. 


“Se realiza um resumo das transações realizadas no período selecionado e o resultado é transportado para o Data Warehouse como uma única transação, armazenando um valor calculado resultado da soma ou média da magnitude considerada”.


4. Como mencionado no enunciado, Hierros S.A. está ativa há mais de cem anos, fato que implica uma grande quantidade de dados. Salientamos que podem existir dados com valores errados, incorretamente inseridos, duplicados ou valores que não correspondam. Portanto, é necessário realizar um processo para estabelecer a qualidade dos dados e detectar os erros. Mostre os erros que você pode encontrar neste processo, tendo em conta o enunciado. Proponha também uma maneira para solucionar o erro. É importante que se justifique a escolha. 

A Hierros S.A. por ser uma organização em atividade a mais de cem anos possui uma grande quantidade de dados. Os mesmo, nos primeiros anos, foram registrados em papeis devido a não existência de computadores. 

Com o passar dos anos a empresa foi se estruturando e os dados foram lançados no sistema em arquivos do Excel. Ao analisar as informações observou-se alguns erros no processo como: 

 Cada departamento possui seu banco de dados (não estão unificados); 
 Valores utilizados não coincidem; 
 Dados registrados em dois idiomas; 
 Dados registrados com duas diferentes moedas correntes. 

E a fase de limpeza permitira a correção dos erros: 

 Na introdução dos dados; 
 Na transmissão dos dados ou armazenamento; 
 Por diferentes definições de dados em dicionários; 
 Por duplicidade de dados; 
 Endereços não existentes, 
 Diferentes termologias, etc. 

A etapa de limpeza de dados nesta parte do processo é necessária, pois quando uma organização trabalha com dados ruins, poderá levar a empresa a ineficiências operacionais, perdas financeiras e oportunidades perdidas como informa a Astera no seu texto. 

Nesta etapa do processo permitira a análise de dados com alta qualidade e tomada de decisão. O uso de uma ferramenta de limpeza de dados bem-sucedida de possuir: 

 Recursos abrangentes de criação de perfil de dados; 
 Verificações avançadas de qualidade de dados; 
 Mapeamento fácil de dados; 
 Conectividade aprimorada; 
 Automação de fluxo de trabalho. 

A ENEB informa que a qualidade dos dados não se refere apenas ao fato de não possuírem defeitos, mas que os dados devem: 

 Proporcionar uma única visão; 
 Ser consistentes; 
 Ser completos; 
 Ser adequados para sua função; 
 Estar relacionado corretamente com todas as fontes; 
 Cumprir as leis e normativas. 

E a qualidade dos dados é preciso diferenciar a validação de dados que tenta rejeitar registros errados durante a entrada do sistema e o processo de limpeza dos dados que corrigem os dados ou elimina para obter dados de qualidades. 

Uma boa auditoria deve ser composta pelos seguintes passos: 

 Detecção de dados incorretos 
 Limpeza 
 Normalização 
 Duplicação 
 Integração

Uma auditoria de dados é de suma importância para encontrar erros no banco e a ENEB sugere realiza-la para evitar incorporar informações errôneas que distorçam os resultados com valores nulos, duplicados, valores extremos, texto por números, etc.


Análise – detectam erros de sintaxe, um analisador gramatical é usado que decidi se é aceitável ou permitida. 

Estatística - com o uso de funções matemáticas que contenham desvios, intervalos, médias ou algoritmos e que são realizadas por especialistas, nos pode levar a comprovar se os dados são corretos ou não, ainda que seja complexo, seu valor estatístico o determina. 

Eliminação – os registros são geralmente excluídos por duplicação. 

Transformação - é possível alterar o valor de um valor para outro em função daquilo que parametrizemos mediante o uso de algoritmos matemáticos básicos ou de um dicionário.


Bibliografía 

Oliveira, P.R.M (2020). Ferramenta de ETL – Seleção em Big Data Para Condensação de Dados de Produtos e Tributos. 

O Processo de ETL – ENEB 

Salis, T.T. et al. Portal de Processos e ETL para Integração de Dados Procedentes de Bases Distribuídas e Heterogêneas. Contribuição técnica ao 17° Seminário de Automação e TI Industrial - Vitória, ES, Brasil, setembro de 2013. 

Vendeirinho, R.I.A.F. O Papel dos Metadados na Implementação de Uma Gestão Orientada a Processos. Universidade Técnica de Lisboa – Instituto Superior Técnico, Outubro de 2007.




google.com, pub-4262202157173490, DIRECT, f08c47fec0942fa0


Nenhum comentário: