때때로 데이터 과학자로서 우리는 완벽한 모델을 구축하고자 하는 의지가 강해서 의도치 않게 인간의 편향성을 모델에 포함시킬 수 있습니다. 종종 편향이 학습 데이터를 통해 스며들어 증폭되어 모델에 포함되는 경우가 많습니다. 이러한 모델이 생산 주기에 접어들면 신용 점수에 대한 잘못된 예측이나 상황 검진과 같은 편향으로 인한 심각한 영향을 미칠 수 있습니다. 다양한 산업 분야에서 모델 공정성과 신뢰할 수 있는 AI에 대한 규제 요건은 편향된 모델이 생산 주기에 진입하는 것을 방지하는 것을 목표로 합니다.
책임감 있는 데이터 과학자가 되려면 모델 파이프라인을 구축할 때 고려해야 할 두 가지 주요 사항이 있습니다.
편향성과 불공정성을 발견하고 정의하는 것은 쉽지 않습니다. 데이터 과학자가 발생할 수 있는 윤리적 문제를 반성하고 식별할 수 있도록 표준 프로세스에는 데이터 위험 평가, 모델 위험 평가 및 생산 모니터링이라는 3가지 추가 단계가 포함되어야 합니다.
이 단계를 통해 데이터 과학자는 대상 변수에 대해 서로 다른 사람들 그룹 간에 불균형이 있는지 평가할 수 있습니다. 예를 들어, 여전히 남성이 여성보다 관리직에 더 자주 발탁되는 것을 관찰할 수 있습니다. 하지만 성별에 따라 일자리를 제공하는 것이 불법이라는 것은 누구나 알고 있습니다. 따라서 모델의 균형을 맞추기 위해 성별은 중요하지 않으며 제거될 수 있다고 주장할 수 있습니다. 그렇다면 성별을 제거하면 또 어떤 영향을 미칠 수 있을까요? 조치를 취하기 전에 적절한 전문가와 함께 이 단계를 검토하여 현재 검사가 모델의 잠재적 편향을 완화하기에 충분한지 확인해야 합니다.
데이터 밸런싱의 목표는 프로덕션에 사용되는 데이터의 분포를 모방하는 것입니다. 이는 학습 데이터가 프로덕션 환경에서 실시간으로 사용되는 데이터와 최대한 유사하도록 하기 위한 것입니다. 따라서 초기 반응은 편향된 변수를 삭제하는 것이지만 이 접근 방식으로는 문제를 해결할 수 없을 것입니다. 변수는 상관관계가 있는 경우가 많으며, 편향은 상관관계가 있는 필드 중 하나를 통해 몰래 침투하여 모델에서 프록시를 대체할 수 있습니다. 따라서 편향을 제거하기 전에 모든 상관관계를 검토하여 편향이 완전히 제거되었는지 확인해야 합니다.
모델 예측은 즉각적이고 심각한 영향을 미치며, 실제로 한 사람의 삶을 완전히 바꿀 수 있습니다. 모델이 신용 점수가 낮다고 예측하면 신용카드를 받고 대출을 받고, 주택을 구하고, 합리적인 이자율을 받는 데 어려움을 겪으면서 삶의 모든 것에 영향을 미칠 수 있습니다. 또한 낮은 점수에 대한 이유를 찾지 못하면 개선의 기회도 없습니다.
데이터 과학자의 역할은 모델이 모든 사람에게 가장 공정한 결과를 제공하도록 하는 것입니다. 데이터가 편향된 경우 모델은 해당 편향을 학습하여 불공정한 예측을 수행합니다. 블랙박스 모델은 훌륭한 결과를 제공하지만 해석 가능성과 설명 가능성이 거의 없어 공정성을 보장하기 위한 위험 신호가 있는지 확인하는 것이 불가능합니다. 따라서 모델 결과에 대한 심층적인 분석이 필요합니다. 데이터 과학자는 해석 가능성과 성능의 균형을 평가하고 두 가지 요구 사항을 모두 충족하는 모델을 선택해야 합니다.
데이터 과학자가 모델을 개발하면 MLOps 팀에 넘겨지는 경우가 많습니다. 새 모델 데이터가 프로덕션에 투입되면 새로운 편향 가능성이 발생하거나 적절한 모니터링 없이 이전에 간과되었던 편향이 강화될 수 있습니다. 프로덕션 데이터는 성능이나 일관성의 편차를 초래하고 모델과 데이터에 편견을 불어넣을 수 있습니다. IBM® Watson Studio와 같은 도구를 사용하여 모델 성능 저하를 나타내는 적절한 경고를 도입하고 더 이상 사용할 수 없는 모델을 언제 폐기할지 결정하는 메커니즘을 도입하여 모델을 모니터링하는 것이 매우 중요합니다. 다시 말하지만, 프로덕션 데이터 분포를 모델 학습에 사용된 데이터와 비교하여 데이터 품질을 추적해야 합니다.
책임감 있는 데이터 과학이란 코드와 성능을 넘어 모델에 대해 생각하는 것을 의미하며, 모델은 작업하는 데이터와 데이터의 신뢰성에 큰 영향을 받습니다. 궁극적으로 편향성을 완화하는 것은 모델이 올바른 인간 프로세스를 따르도록 하는 섬세하지만 중요한 프로세스입니다. 그렇다고 해서 새로운 무언가를 해야 한다는 의미는 아니지만, 데이터 과학자로서 책임감 있는 방식으로 수행할 수 있도록 이미 하고 있는 일을 재고하고 재구성하는 것이 중요합니다.
