Uma lista dos 13 problemas mais comuns de dados de pipeline (com exemplos)

Empresária lendo relatório

Talvez a parte mais complicada do gerenciamento de pipelines de dados seja entender o fantasma da máquina—os dados ex machina, por assim dizer.

Muitos pipelines têm o que parecem ser personalidades. Eles são volúveis. Eles travam inesperadamente quando há mau tempo. Eles geram saídas consistentemente erradas e tempos irritantemente inconsistentes. Alguns dos problemas parecem totalmente insolúveis.

Essa é uma grande parte da razão pela qual o IBM Databand existe: para dar aos engenheiros de dados visibilidade dos problemas de dados. Todos querem respostas mais rápidas para perguntas como: "Por que recebemos um erro de tempo de execução?" ou "Por que a tarefa ainda está presa na fila?" Muitas vezes, ninguém sabe.

Mas, com uma plataforma de observabilidade, você pode dizer. Você pode finalmente realizar uma análise de causa raiz (RCA) completa no momento — e não adicionar mais um ticket à sua enorme lista de pendências ou deixar uma dívida de dados que você sabe que retornará para ajudar.

Neste guia, vamos compartilhar alguns dos problemas de dados mais comuns que vemos quando as pessoas executam pipelines e algumas das causas raiz que estão por trás deles.

 

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Agradecemos sua inscrição!

Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Causas proximais versus causas raiz para problemas de dados

Como você corrige problemas de qualidade de dados? Tudo começa com a certeza de que o que separa os engenheiros de dados notáveis dos demais é sua capacidade de buscar a causa raiz dos problemas relacionados aos dados. Qualquer pessoa pode redefinir o pipeline, dar de volta e retomar o trabalho. Pouquíssimos se fazem de detetives para chegar ao fundo da questão, embora isso seja necessário.

É a diferença entre estar satisfeito com as causas proximais ou as causas raiz. As causas proximais são aquelas que parecem ter saído erradas, como um erro de tempo de execução. A causa raiz é o que causou a causa proximal, e é muito mais difícil de descobrir. Às vezes, as causas proximais são a causa raiz, mas raramente.

Pense nas causas proximais como meros alertas. Estão informando que em algum lugar do seu pipeline há um erro raiz. Ignore-os por sua conta e risco, porque essa dívida de dados aumenta.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Causas proximais comuns (exemplos comuns de problemas de dados)

Quando chove, cai muito, e quando você tem um problema, a tendência é que tenha muitos. Abaixo estão possibilidades comuns de problemas de dados proximais — esses problemas não são mutuamente exclusivos, e a lista está longe de ser completa:

  • A programação mudou
  • O pipeline atingiu o tempo limite
  • Um trabalho ficou preso em uma fila
  • Houve uma transformação inesperada
  • Uma execução específica falhou (talvez falhe logo no início)
  • A corrida levou um tempo anormalmente longo
  • Houve uma falha em todo o sistema
  • Houve um erro na transformação
  • Muitos trabalhos falharam na noite anterior
  • Havia um tamanho de entrada anômalo
  • Havia um tamanho de saída anômalo
  • Houve um tempo de execução anormal
  • Uma tarefa foi interrompida inesperadamente
  • Houve um erro de tempo de execução

Mas isso não é tudo, não é mesmo? Novamente, pense nisso não como problemas, mas como sinais. Essas são todas as coisas que podem dar errado e que significam que algo mais problemático ocorreu. Muitos aparecerão simultaneamente.
Uma plataforma de observabilidade pode ser muito útil para classificá-los. Isso permitirá que você agrupe problemas que coocorrem para entendê-los.

Você também pode agrupar problemas de acordo com a dimensão da qualidade de dados à qual eles agregam, como adequação, linhagem, governança ou estabilidade. O agrupamento de problemas de dados dessa forma mostra as dimensões nas quais você está tendo mais problemas e pode contextualizar o que parecem ser problemas isolados.

E, claro, você também não precisa esperar um trabalho deixar de experimentar isso. Se você tem o Databand, ele permite que você investigue retroativamente as anomalias (ele captura todos esses metadados históricos) para que você possa esclarecer o que é casual e o que está simplesmente correlacionado.

É assim que você pode escolher um problema, como uma tarefa paralisando, entre uma dúzia de erros, e testar muitos problemas de que a causa raiz é provavelmente uma falha de provisionamento de clusters. E é assim que você deve olhar para isso. Esteja sempre caçando a causa raiz do problema de dados.

As 15 causas raiz mais comuns

A causa raiz é o fim do caminho. Eles devem ser o evento original na linha de causalidade, o primeiro dominó, por assim dizer, e principalmente explicar o problema. Se a causa raiz do problema de dados não ocorrer, nenhuma das causas proximais deverá ocorrer. É diretamente causal a todos eles.

As causas raiz, é claro, nem sempre são claras e as correlações nem sempre são exatas. Se você não está confiante em sua resposta, uma maneira probabilística de testar sua verdadeira pontuação de confiança é tentar este experimento mental: diga que seu chefe diz que sua equipe apoiará sua hipótese e ninguém vai verificar antes ela entrará em produção, e seu nome estará em toda ela. Se estiver errado, a culpa é sua. Que pontuação de confiança de 0 a 100 você daria à sua hipótese? Se estiver abaixo de 70, continue investigando.

Problemas comuns de dados de causa raiz incluem:

1. Erro do usuário: começaremos com os erros do usuário porque eles são comuns. Talvez alguém tenha inserido o esquema errado ou um valor errado, o que significa que o pipeline não lê os dados, ou fez a coisa certa com valores incorretos, e agora você tem uma falha de tarefa.

2. Dados rotulados inadequadamente: às vezes, as linhas se deslocam em uma tabela e os rótulos certos são aplicados às colunas erradas.

3. O parceiro de dados perdeu uma entrega: também muito comum. Você pode construir um sistema à prova de marcadores, mas não pode controlar o que não consegue ver e, se os problemas de dados estiverem nos dados de origem, isso fará com que pipelines em perfeitas condições se comportem mal.

4. Há um bug no código: isso é comum quando há uma nova versão do pipeline. Você pode descobrir isso rapidamente com softwares de controle de versão como o Git ou o GitLab. Compare o código de produção com uma versão anterior e execute um teste com essa versão anterior.

5. Erro de dados de OCR: seu scanner óptico lê os dados errados, levando a valores estranhos (ou missing values).

6. Problema de dados obsoletos: o conjunto de dados está tão desatualizado que já não é válido.

7. Problema de dados duplicados: muitas vezes, um fornecedor não conseguia entregar dados e, portanto, o pipeline foi executado nos dados da semana passada.

8. Problema de permissão: o pipeline falhou porque o sistema não tinha permissão para extrair os dados ou realizar uma transformação.

9. Erro de infraestrutura: talvez você tenha esgotado seu limite de memória disponível ou de chamadas de API, seu cluster Apache Spark não foi executado, ou seu data warehouse está sendo excepcionalmente lento, fazendo com que a execução prossiga sem os dados.

10. Alterações no agendamento: alguém (ou algo) alterou o agendamento e isso faz com que o pipeline fique fora de ordem ou não seja executado.

11. Conjunto de dados com viés: muito complicado de resolver. Não há uma boa maneira de descobrir isso, exceto executando alguns testes para ver se os dados são anômalos em comparação com um conjunto de dados verdadeiros semelhante, ou descobrindo como foram coletados ou gerados.

12. Falha do orquestrador: seu agendador de pipeline não conseguiu agendar ou executar o trabalho.

13. Fantasma na máquina (dados ex machina): é verdadeiramente incognoscível. É difícil assumir que é o caso, mas é verdade para algumas coisas. O melhor que você pode fazer é documentar e estar pronto para a próxima vez, quando puder reunir mais dados e começar a traçar correlações.

E depois, é claro, há a realidade em que a causa raiz não é totalmente clara. Muitas coisas estão correlacionadas e provavelmente são interdependentes, mas não há uma resposta perfeita e, depois de fazer alterações, você corrigiu o problema de dados, embora não saiba ao certo o porquê.

Nesses casos, como em qualquer outro, anote sua hipótese no log e, quando puder retornar a ele, continue testando os dados históricos e esteja atento a novos problemas e causas mais explicativas.

Coloque em prática para reduzir problemas de dados

A característica que mais separa o engenheiro de dados amador do especialista é a capacidade de resolver as causas raiz e o conforto com respostas ambíguas. As causas proximais às vezes são a causa raiz, mas nem sempre. Às vezes, as causas raiz estão correlacionadas com causas proximais específicas, mas nem sempre. Às vezes, não há distinção entre o que é viés de dados e o que é erro humano.

Grandes engenheiros de dados sabem que seus pipelines são inconstante e, às vezes, têm personalidades. Mas eles estão sintonizados com eles, têm ferramentas para medi-los e estão sempre em busca de uma explicação mais confiável.

O IBM Databand fornece monitoramento dos pipelines de dados para detectar rapidamente incidentes, como falhas nas tarefas e execuções, e assim possibilitar a gestão do crescimento dos pipelines. Se você está pronto para fazer uma análise mais detalhada, agende uma demonstração hoje mesmo.

Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data