Uma lista dos 13 problemas mais comuns de dados de pipeline (com exemplos)

Talvez a parte mais complicada do gerenciamento de pipelines de dados seja entender o fantasma da máquina—os dados ex machina, por assim dizer.

Muitos pipelines têm o que parecem ser personalidades. Eles são volúveis. Eles travam inesperadamente quando há mau tempo. Eles geram saídas consistentemente erradas e tempos irritantemente inconsistentes. Alguns dos problemas parecem totalmente insolúveis.

Essa é uma grande parte da razão pela qual o IBM Databand existe: para dar aos engenheiros de dados visibilidade dos problemas de dados. Todos querem respostas mais rápidas para perguntas como: "Por que recebemos um erro de tempo de execução?" ou "Por que a tarefa ainda está presa na fila?" Muitas vezes, ninguém sabe.

Mas, com uma plataforma de observabilidade, você pode dizer. Você pode finalmente realizar uma análise de causa raiz (RCA) completa no momento — e não adicionar mais um ticket à sua enorme lista de pendências ou deixar uma dívida de dados que você sabe que retornará para ajudar.

Neste guia, vamos compartilhar alguns dos problemas de dados mais comuns que vemos quando as pessoas executam pipelines e algumas das causas raiz que estão por trás deles.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Causas proximais versus causas raiz para problemas de dados

Como você corrige problemas de qualidade de dados? Tudo começa com a certeza de que o que separa os engenheiros de dados notáveis dos demais é sua capacidade de buscar a causa raiz dos problemas relacionados aos dados. Qualquer pessoa pode redefinir o pipeline, dar de volta e retomar o trabalho. Pouquíssimos se fazem de detetives para chegar ao fundo da questão, embora isso seja necessário.

É a diferença entre estar satisfeito com as causas proximais ou as causas raiz. As causas proximais são aquelas que parecem ter saído erradas, como um erro de tempo de execução. A causa raiz é o que causou a causa proximal, e é muito mais difícil de descobrir. Às vezes, as causas proximais são a causa raiz, mas raramente.

Pense nas causas proximais como meros alertas. Estão informando que em algum lugar do seu pipeline há um erro raiz. Ignore-os por sua conta e risco, porque essa dívida de dados aumenta.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Causas proximais comuns (exemplos comuns de problemas de dados)

Quando chove, cai muito, e quando você tem um problema, a tendência é que tenha muitos. Abaixo estão possibilidades comuns de problemas de dados proximais — esses problemas não são mutuamente exclusivos, e a lista está longe de ser completa:

A programação mudou
O pipeline atingiu o tempo limite
Um trabalho ficou preso em uma fila
Houve uma transformação inesperada
Uma execução específica falhou (talvez falhe logo no início)
A corrida levou um tempo anormalmente longo
Houve uma falha em todo o sistema
Houve um erro na transformação
Muitos trabalhos falharam na noite anterior
Havia um tamanho de entrada anômalo
Havia um tamanho de saída anômalo
Houve um tempo de execução anormal
Uma tarefa foi interrompida inesperadamente
Houve um erro de tempo de execução

Mas isso não é tudo, não é mesmo? Novamente, pense nisso não como problemas, mas como sinais. Essas são todas as coisas que podem dar errado e que significam que algo mais problemático ocorreu. Muitos aparecerão simultaneamente.
Uma plataforma de observabilidade pode ser muito útil para classificá-los. Isso permitirá que você agrupe problemas que coocorrem para entendê-los.

Você também pode agrupar problemas de acordo com a dimensão da qualidade de dados à qual eles agregam, como adequação, linhagem, governança ou estabilidade. O agrupamento de problemas de dados dessa forma mostra as dimensões nas quais você está tendo mais problemas e pode contextualizar o que parecem ser problemas isolados.

E, claro, você também não precisa esperar um trabalho deixar de experimentar isso. Se você tem o Databand, ele permite que você investigue retroativamente as anomalias (ele captura todos esses metadados históricos) para que você possa esclarecer o que é casual e o que está simplesmente correlacionado.

É assim que você pode escolher um problema, como uma tarefa paralisando, entre uma dúzia de erros, e testar muitos problemas de que a causa raiz é provavelmente uma falha de provisionamento de clusters. E é assim que você deve olhar para isso. Esteja sempre caçando a causa raiz do problema de dados.

As 15 causas raiz mais comuns

A causa raiz é o fim do caminho. Eles devem ser o evento original na linha de causalidade, o primeiro dominó, por assim dizer, e principalmente explicar o problema. Se a causa raiz do problema de dados não ocorrer, nenhuma das causas proximais deverá ocorrer. É diretamente causal a todos eles.

As causas raiz, é claro, nem sempre são claras e as correlações nem sempre são exatas. Se você não está confiante em sua resposta, uma maneira probabilística de testar sua verdadeira pontuação de confiança é tentar este experimento mental: diga que seu chefe diz que sua equipe apoiará sua hipótese e ninguém vai verificar antes ela entrará em produção, e seu nome estará em toda ela. Se estiver errado, a culpa é sua. Que pontuação de confiança de 0 a 100 você daria à sua hipótese? Se estiver abaixo de 70, continue investigando.

Problemas comuns de dados de causa raiz incluem:

1. Erro do usuário: começaremos com os erros do usuário porque eles são comuns. Talvez alguém tenha inserido o esquema errado ou um valor errado, o que significa que o pipeline não lê os dados, ou fez a coisa certa com valores incorretos, e agora você tem uma falha de tarefa.

2. Dados rotulados inadequadamente: às vezes, as linhas se deslocam em uma tabela e os rótulos certos são aplicados às colunas erradas.

3. O parceiro de dados perdeu uma entrega: também muito comum. Você pode construir um sistema à prova de marcadores, mas não pode controlar o que não consegue ver e, se os problemas de dados estiverem nos dados de origem, isso fará com que pipelines em perfeitas condições se comportem mal.

4. Há um bug no código: isso é comum quando há uma nova versão do pipeline. Você pode descobrir isso rapidamente com softwares de controle de versão como o Git ou o GitLab. Compare o código de produção com uma versão anterior e execute um teste com essa versão anterior.

5. Erro de dados de OCR: seu scanner óptico lê os dados errados, levando a valores estranhos (ou missing values).

6. Problema de dados obsoletos: o conjunto de dados está tão desatualizado que já não é válido.

7. Problema de dados duplicados: muitas vezes, um fornecedor não conseguia entregar dados e, portanto, o pipeline foi executado nos dados da semana passada.

8. Problema de permissão: o pipeline falhou porque o sistema não tinha permissão para extrair os dados ou realizar uma transformação.

9. Erro de infraestrutura: talvez você tenha esgotado seu limite de memória disponível ou de chamadas de API, seu cluster Apache Spark não foi executado, ou seu data warehouse está sendo excepcionalmente lento, fazendo com que a execução prossiga sem os dados.

10. Alterações no agendamento: alguém (ou algo) alterou o agendamento e isso faz com que o pipeline fique fora de ordem ou não seja executado.

11. Conjunto de dados com viés: muito complicado de resolver. Não há uma boa maneira de descobrir isso, exceto executando alguns testes para ver se os dados são anômalos em comparação com um conjunto de dados verdadeiros semelhante, ou descobrindo como foram coletados ou gerados.

12. Falha do orquestrador: seu agendador de pipeline não conseguiu agendar ou executar o trabalho.

13. Fantasma na máquina (dados ex machina): é verdadeiramente incognoscível. É difícil assumir que é o caso, mas é verdade para algumas coisas. O melhor que você pode fazer é documentar e estar pronto para a próxima vez, quando puder reunir mais dados e começar a traçar correlações.

E depois, é claro, há a realidade em que a causa raiz não é totalmente clara. Muitas coisas estão correlacionadas e provavelmente são interdependentes, mas não há uma resposta perfeita e, depois de fazer alterações, você corrigiu o problema de dados, embora não saiba ao certo o porquê.

Nesses casos, como em qualquer outro, anote sua hipótese no log e, quando puder retornar a ele, continue testando os dados históricos e esteja atento a novos problemas e causas mais explicativas.

Coloque em prática para reduzir problemas de dados

A característica que mais separa o engenheiro de dados amador do especialista é a capacidade de resolver as causas raiz e o conforto com respostas ambíguas. As causas proximais às vezes são a causa raiz, mas nem sempre. Às vezes, as causas raiz estão correlacionadas com causas proximais específicas, mas nem sempre. Às vezes, não há distinção entre o que é viés de dados e o que é erro humano.

Grandes engenheiros de dados sabem que seus pipelines são inconstante e, às vezes, têm personalidades. Mas eles estão sintonizados com eles, têm ferramentas para medi-los e estão sempre em busca de uma explicação mais confiável.

O IBM Databand fornece monitoramento dos pipelines de dados para detectar rapidamente incidentes, como falhas nas tarefas e execuções, e assim possibilitar a gestão do crescimento dos pipelines. Se você está pronto para fazer uma análise mais detalhada, agende uma demonstração hoje mesmo.

Quatro etapas para melhorar a previsão com a análise de dados

Utilize o poder da análise de dados e da business intelligence para planejar, prever e realizar os resultados futuros que melhor beneficiarem a sua empresa e seus clientes.

Recursos

Gartner® Predicts 2024: como a IA afetará os usuários das análises de dados

Tenha acesso a insights exclusivos sobre o cenário em evolução das soluções avançadas de BI, destacando as principais descobertas, suposições e recomendações para líderes de dados e de análises.

O data lakehouse híbrido e aberto para IA

Simplifique o acesso aos dados e automatize a governança dos dados. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escala de IA, com todos os seus dados, em qualquer lugar.

O diferenciador dos dados

Explore o guia do líder de dados para criar uma organização baseada em dados e gerar vantagem comercial.

Gerenciamento de dados para IA e análise de dados em escala

Saiba como uma abordagem de data lakehouse aberta pode oferecer dados confiáveis e execução mais rápida para as análises de dados e projetos de IA.

Como alinhar com sucesso sua estratégia de AI, dados e análises

Conecte sua estratégia e análises de dados aos objetivos de negócios com essas quatro etapas principais.

Superando a baixa adoção para tomar decisões inteligentes

Analise com mais detalhes por que os desafios de business intelligence podem persistir e o que isso significa para os usuários da organização.

Soluções relacionadas

IBM DataStage

Crie um pipeline de dados confiável com uma ferramenta ETL modernizada em uma plataforma de insights nativa da nuvem.

Descubra o DataStage

Soluções de integração de dados

Crie pipelines de dados resilientes, de alto desempenho e de baixo custo para suas iniciativas de IA generativa, análise de dados em tempo real, modernização de armazéns e necessidades operacionais com as soluções de integração de dados da IBM.

Conheça soluções de integração de dados

Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados

Dê o próximo passo

Projete, desenvolva e execute tarefas que migram e transformam dados. Tenha poderosos recursos de integração automatizados em um ambiente híbrido ou multinuvem com o IBM DataStage, uma ferramenta de integração de dados líder do setor.

Explore o IBM DataStage

Explore as soluções de integração de dados