태그

가장 일반적인 13가지 파이프라인 데이터 문제 목록(예시 포함)

데이터 파이프라인을 관리할 때 가장 까다로운 부분은 시스템 속을 유령처럼 떠도는 데이터 엑스 마키나를 이해하는 일입니다.

많은 파이프라인에는 마치 성격이 있는 것처럼 변덕스럽고, 날씨가 나쁘면 갑자기 멈추기도 하며, 항상 엉뚱한 결과를 내거나 완료 시간이 도무지 일정하지 않습니다. 어떤 문제들은 도저히 해결할 수 없을 것처럼 느껴지기도 합니다.

이것이 바로 IBM Databand가 존재하는 큰 이유 중 하나입니다. 데이터 엔지니어에게 데이터 문제를 한눈에 볼 수 있는 가시성을 제공하기 위해서죠. 누구나 “런타임 오류가 발생한 이유가 무엇일까?” 또는 “작업이 여전히 대기열에 멈춰 있는 이유는 무엇일까?”와 같은 질문에 빠르게 답을 얻고 싶어합니다. 그 이유를 아는 사람은 거의 없는 경우가 많습니다.

그러나 관측 가능성 플랫폼을 사용하면 알 수 있습니다. 이제 바로 그 순간에 철저한 근본 원인 분석(RCA)을 수행할 수 있습니다. 덕분에 쌓여가는 백로그에 또 다른 티켓을 추가하거나, 언젠가 다시 문제를 일으킬 데이터 부채를 남기지 않아도 됩니다.

이 가이드에서는 사람들이 파이프라인을 실행할 때 가장 흔히 볼 수 있는 몇 가지 데이터 문제와 그 뒤에 있는 근본 원인에 대해 설명합니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

데이터 문제의 근접 원인과 근본 원인 비교

데이터 품질 문제는 어떻게 해결할까요? 뛰어난 데이터 엔지니어와 그렇지 않은 엔지니어를 구분하는 것은 바로 데이터 문제의 근본 원인을 찾아내는 능력입니다. 누구나 파이프라인을 재설정하고 어깨를 으쓱하며 작업을 다시 시작할 수 있습니다. 하지만 문제의 근본 원인을 찾기 위해 탐정 놀이를 하는 사람은 거의 없습니다. 그럼에도 이 과정은 꼭 필요합니다.

이는 근접 원인(proximal cause)에 만족할 것인지, 아니면 근본 원인(root cause)에 집중할 것인지의 차이입니다. 근접 원인은 런타임 오류처럼 표면상 잘못된 것으로 보이는 부분을 말합니다. 근본 원인은 바로 그 근접 원인을 일으킨 원인이며, 알아내기가 훨씬 더 어렵습니다. 때로 근접 원인이 곧 근본 원인이 되기도 하지만, 그런 경우는 드뭅니다.

근접 원인은 단순한 경고라고 생각하세요. 파이프라인 어딘가에 근본적인 오류가 있다는 신호와 같습니다. 무시했다가는 그 데이터 부채가 눈덩이처럼 불어날 수도 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

일반적인 근접 원인(데이터 문제의 일반적인 예)

안 좋은 일은 겹쳐서 일어나기 마련이라, 한 가지 문제가 생기면 여러 문제가 동시에 나타나는 경우가 많습니다. 아래는 데이터에서 흔히 나타나는 근접 원인 수준의 문제들입니다. 여러 문제가 동시에 나타날 수 있으며, 목록이 모든 문제를 담고 있는 것은 아닙니다.

일정 변경
파이프라인 시간 초과
작업이 대기열에서 멈춤
예상치 못한 변환 발생
특정 실행 실패(시작 직후 실패 가능)
실행 시간이 비정상적으로 오래 소요됨
시스템 전체에 장애 발생
변환 오류가 발생했습니다.
전날 밤 많은 작업이 실패함
비정상적인 입력 크기가 있습니다.
비정상적인 출력 크기
비정상적인 실행 시간
작업이 예기치 않게 중단되었습니다.
런타임 오류 발생

하지만 그게 전부는 아닙니다. 다시 한 번 강조하지만, 이것들을 문제가 아니라 신호로 생각하세요. 이 신호들은 더 심각한 문제가 발생했음을 알려주는 표시입니다. 여러 신호가 동시에 나타나기도 합니다.
관측 가능성 플랫폼은 이러한 요소들을 분류하는 데 매우 유용할 수 있습니다. 이를 통해 동시에 발생하는 문제들을 그룹화하여 한눈에 이해할 수 있습니다.

또한 적합성, 리니지, 거버넌스, 안정성 등 데이터 품질의 각 차원별로 문제를 그룹화할 수 있습니다. 이런 방식으로 그룹화하면 가장 문제가 많이 발생하는 차원을 한눈에 파악할 수 있고, 마치 고립된 것처럼 보였던 문제들도 전체 맥락 속에서 이해할 수 있습니다.

물론 작업이 실패할 때까지 기다릴 필요는 없습니다. Databand를 사용하는 경우 이상 징후를 소급하여 조사할 수 있으므로(모든 과거 메타데이터 캡처) 무엇이 우연한 현상이고 무엇이 단순 상관관계 현상인지 명확하게 파악할 수 있습니다.

이를 통해 수십 개의 오류 중 작업 지연과 같은 문제를 찾아내고, 근본 원인이 클러스터 프로비저닝 실패일 가능성이 높은 여러 문제를 테스트할 수 있습니다. 바로 이렇게 문제를 바라봐야 합니다. 항상 데이터 문제의 근본 원인을 찾는 시각으로 접근하세요.

가장 일반적인 근본 원인 15가지

근본 원인은 문제 해결의 종착점입니다. 인과 관계에서 최초로 일어난 사건, 즉 첫 번째 도미노와 같아야 하며, 대부분의 문제를 설명할 수 있어야 합니다. 데이터 문제의 근본 원인이 발생하지 않았다면, 근접 원인도 발생하지 않아야 합니다. 근본 원인은 이 모든 근접 원인과 직접적으로 연결되어 있습니다.

물론 근본 원인은 항상 명확하지 않고, 상관관계도 항상 정확하지 않습니다. 자신의 답변에 확신이 서지 않는다면, 이 사고 실험을 통해 나의 실제 확신 점수를 확률적으로 확인해 볼 수 있습니다. 상사가 "팀이 네가 세운 가설에 전적으로 올인할 것이고, 운영 단계에 들어가기 전에는 아무도 확인하지 않을 것"이라고 말하고, 나는 그 결과에 대한 모든 책임을 지게 된다고 상상해 보세요. 만약 가설이 틀리면 모든 책임은 전적으로 나에게 있습니다. 이때, 가설에 대해 0~100점 중 몇 점의 신뢰도를 부여하시겠어요? 70점 미만이라면 계속 조사하세요.

일반적인 근본 원인 데이터 문제는 다음과 같습니다.

1. 사용자 오류: 사용자 오류는 흔히 발생하기 때문에 먼저 다루겠습니다. 누군가 잘못된 스키마나 값을 입력하여 파이프라인이 데이터를 읽지 못했거나, 잘못된 값으로 올바른 작업을 수행하다가 작업 실패가 발생했을 수 있습니다.

2. 레이블이 잘못 지정된 데이터: 테이블에서 행이 이동하면서 올바른 레이블이 잘못된 열에 적용되는 경우가 있습니다.

3. 데이터 파트너가 제때 보내지 않은 경우: 이 문제 역시 매우 일반적입니다. 완벽한 시스템을 구축할 수는 있지만 보이지 않는 것을 통제할 수는 없으며, 소스 데이터에 데이터 문제가 있는 경우, 완벽하게 좋은 파이프라인도 제대로 작동하지 않게 됩니다.

4. 코드에 버그가 있는 경우: 파이프라인의 새 버전에서 흔히 발생하는 문제입니다. Git 또는 GitLab과 같은 버전 관리 소프트웨어를 사용하면 이를 매우 빠르게 파악할 수 있습니다. 프로덕션 코드를 이전 버전과 비교하고 해당 이전 버전으로 테스트를 실행합니다.

5. OCR 데이터 오류: 광학 스캐너가 데이터를 잘못 읽어 이상값 또는 결측값이 생깁니다.

6. 오래된 데이터 문제: 데이터 세트가 너무 오래되어 더 이상 유효하지 않습니다.

7. 중복 데이터 문제: 공급업체가 데이터를 제공하지 못해 파이프라인이 지난 주 데이터에 대해 실행되는 경우가 종종 있습니다.

8. 권한 문제: 시스템에 데이터를 가져오거나 변환을 수행할 수 있는 권한이 없어 파이프라인이 실패했습니다.

9. 인프라 오류: 사용 가능한 메모리 또는 API 호출 한도를 초과했거나, Apache Spark 클러스터가 실행되지 않았거나, 데이터 웨어하우스가 비정상적으로 느려서 데이터 없이 실행이 진행되었을 수 있습니다.

10. 일정 변경: 누군가 또는 무언가가 일정을 변경하여 파이프라인이 잘못 작동하거나 실행되지 않습니다.

11.편향된 데이터 세트: 분류하기가 매우 까다롭습니다. 데이터가 유사한 실제 데이터 세트와 비교하여 비정상적인지 확인하기 위해 몇 가지 테스트를 실행하거나 데이터가 어떻게 수집 또는 생성되었는지 알아내는 것 외에는 이를 파악하는 좋은 방법은 없습니다.

12. 오케스트레이터 실패: 파이프라인 스케줄러가 작업을 예약하거나 실행하지 못했습니다.

13. 고스트 인 더 머신(데이터 엑소 마키나): 알 수 없는 상황입니다. 이를 인정하기는 어렵지만, 어떤 경우에는 사실입니다. 할 수 있는 최선은 문서화하여 더 많은 데이터를 수집하고 상관관계를 도출할 수 있을 때를 대비하는 것입니다.

물론 근본 원인이 완전히 명확하지 않은 현실도 있습니다. 많은 것들이 서로 연관되어 있고 아마도 상호 의존적일 수 있지만, 딱 하나의 명확한 답은 없습니다. 그리고 변경을 한 후에 데이터 문제를 해결했지만 이유가 확실하지 않기도 합니다.

이러한 경우에는 다른 경우와 마찬가지로 로그에 가설을 기록하고, 다시 돌아올 수 있을 때 과거 데이터를 계속 테스트하면서 새로운 문제와 더 설명할 수 있는 원인을 찾아보세요.

데이터 문제를 줄이기 위한 실천 방안

아마추어 데이터 엔지니어와 전문가를 가장 구분짓는 특징은 근본 원인을 찾아내는 능력과 모호한 답에도 불편해하지 않고 대응할 수 있는 능력입니다. 근접 원인이 때로는 근본 원인일 수 있지만, 항상 그런 것은 아닙니다. 근본 원인은 때때로 특정 근접 원인과 연관되어 있지만, 항상 그런 것은 아닙니다. 때로는 데이터 편향과 인적 오류를 구분할 수 없는 경우가 있기도 합니다.

훌륭한 데이터 엔지니어는 자신의 파이프라인이 변덕스럽고 때로는 개성이 있다는 것을 알고 있습니다. 하지만 이들은 이러한 문제에 익숙하고, 이를 측정할 수 있는 툴을 보유하고 있으며, 항상 보다 신뢰할 수 있는 설명을 찾기 위해 노력하고 있습니다.

장애가 발생한 작업 및 실행과 같은 데이터 인시던트를 신속하게 감지하여 파이프라인 증가를 처리할 수 있도록 IBM Databand가 데이터 파이프라인 모니터링을 제공하는 방법을 알아보세요. 더 자세히 살펴볼 준비가 되셨다면 지금 바로 데모를 예약하세요.