실제 사례를 통해 AI 편향성 조명하기

2023년 10월 16일

6분 분량

기업이 인공 지능(AI) 사용을 늘리면서 사람들은 인간의 편견이 AI 시스템에 어느 정도까지 침투했는지에 대해 의문을 제기하고 있습니다. 현실 세계의 AI 편향 사례는 차별적인 데이터와 알고리즘이 AI 모델에 적용되면 모델이 편향을 대규모로 배포하고 그로 인한 부정적인 영향을 증폭시킨다는 것을 보여줍니다.

기업은 공정성을 달성하는 것뿐만 아니라 더 나은 결과를 보장하기 위해 AI의 편향성 문제를 해결하고자 합니다. 그러나 현실 세계에서 인종과 성별에 대한 편견을 없애는 것이 어려운 것처럼, AI의 편향성을 없애는 것도 쉬운 일이 아닙니다.

McKinsey 자료 What AI can and can’t do (yet) for your business에서 저자인 Michael Chui, James Manyika, Mehdi Miremadi는 이렇게 설명합니다. "이러한 편견은 계속 내재해 있기 쉽습니다. 이러한 편견을 인식하고 이를 해결하기 위한 조치를 취하려면 데이터 과학 기법에 심층적으로 숙달하고 데이터 수집을 포함해 기존의 사회적 요인에 대한 메타 이해가 필요하기 때문입니다. 결론적으로, 편견 해소는 지금까지 가장 어려운 장애 요인 중 하나이며 사회적으로 분명 가장 큰 우려 사항입니다."

실생활에서 발생하는 AI 편향의 예를 통해 조직은 편향을 식별하고 해결하는 방법에 대한 유용한 인사이트를 얻을 수 있습니다. 이러한 사례를 비판적으로 살펴보고 편향을 극복한 성공 사례를 통해 데이터 과학자는 머신 러닝 모델에서 편향을 식별하고 예방하기 위한 로드맵을 구축할 수 있습니다.

인공 지능의 편향성이란 무엇인가요?

머신 러닝 편향 또는 알고리즘 편향이라고도 하는 AI 편향은 과거 및 현재의 사회적 불평등을 포함하여 사회 내에서 인간의 편향을 반영하고 영속시키는 편향된 결과를 생성하는 AI 시스템을 말합니다. 편향성은 초기 학습 데이터, 알고리즘 또는 알고리즘이 생성하는 예측에서 발견될 수 있습니다.

편향이 해결되지 않으면 사람들이 경제와 사회에 참여할 수 있는 능력이 저하됩니다. 또한 이로 인해 AI의 잠재력도 감소합니다. 유색인종, 여성, 장애인, 성소수자 커뮤니티 또는 기타 소외된 사람들 사이에서 왜곡된 결과를 낳고 불신을 조장하는 시스템으로부터 기업은 이익을 얻을 수 없습니다.

AI 편향의 원인

AI 편향성을 제거하려면 데이터 세트, 머신 러닝 알고리즘 및 기타 AI 시스템의 요소를 자세히 분석하여 잠재적인 편향성의 원인을 파악해야 합니다.

학습 데이터 편향성

AI 시스템은 훈련 데이터를 기반으로 의사 결정을 내리는 방법을 학습하므로 데이터 세트에 편향이 있는지 평가하는 것이 필수적입니다. 한 가지 방법은 학습 데이터 내에서 과대 또는 과소 대표된 그룹에 대한 데이터 샘플링을 검토하는 것입니다. 예를 들어, 백인을 과도하게 나타내는 얼굴 인식 알고리즘의 학습 데이터는 유색인종에 대한 얼굴 인식을 시도할 때 오류가 발생할 수 있습니다. 마찬가지로, 흑인이 주로 거주하는 지역에서 수집된 정보가 포함된 보안 데이터는 경찰이 사용하는 AI 툴에서 인종적 편견을 유발할 수 있습니다.

편향은 학습 데이터에 라벨을 지정하는 방식에서도 발생할 수 있습니다. 예를 들어, 일관되지 않은 라벨을 사용하거나 특정 특성을 제외하거나 과도하게 나타내는 AI 채용 툴은 자격을 갖춘 지원자를 고려 대상에서 제외할 수 있습니다.

알고리즘 편향성

결함이 있는 학습 데이터를 사용하면 알고리즘이 반복적으로 오류를 생성하거나, 부당한 결과를 초래하거나, 결함이 있는 데이터에 내재된 편향을 증폭시킬 수 있습니다. 알고리즘 편향은 개발자가 자신의 의식적 또는 무의식적 편향에 따라 알고리즘 의사 결정에 부당하게 가중치를 부여하는 등의 프로그래밍 오류로 인해 발생할 수도 있습니다. 예를 들어, 소득이나 어휘와 같은 지표가 알고리즘에서 특정 인종이나 성별의 사람들을 의도치 않게 차별하는 데 사용될 수 있습니다.

인지 편향성

사람들이 정보를 처리하고 판단을 내릴 때, 우리는 필연적으로 경험과 선호도의 영향을 받을 수밖에 없습니다. 결과적으로 사람들은 데이터를 선택하거나 데이터에 가중치를 부여하는 방식을 통해 AI 시스템에 이러한 편향을 구축할 수 있습니다. 예를 들어, 인지 편향으로 인해 전 세계의 다양한 인구에서 표본을 추출하는 대신 미국인으로부터 수집한 데이터 세트를 선호하게 될 수 있습니다.

NIST에 따르면 이러한 편향의 원인은 생각보다 흔하게 찾아볼 수 있다고 합니다. 인공 지능의 편향성을 식별하고 관리하기 위한 표준을 향하여(NIST 특별 간행물 1270) 보고서에서 NIST는 "인간과 제도적, 사회적 요인도 AI 편향성의 중요한 원인이며 현재 간과되고 있다"고 지적했습니다. "이 과제를 성공적으로 해결하려면 모든 형태의 편향을 고려해야 합니다. 그렇게 하려면 우리는 머신 러닝 파이프라인을 넘어 이 기술이 우리 사회에서 어떻게 생성되고 영향을 미치는지 인식하고 조사하기 위해 우리의 관점을 확장해야 합니다."

실생활에서의 AI 편향성의 예

사회가 AI의 작동 방식과 편향 가능성에 대해 더 많이 인식하게 되면서, 조직들은 다양한 사용 사례에서 AI의 편향성에 대한 수많은 주목할 만한 사례를 발견했습니다.

  • 의료 — 여성이나 소수 민족에 대한 데이터가 부족하면 예측 AI 알고리즘이 왜곡될 수 있습니다. 예를 들어, 컴퓨터 지원 진단(CAD) 시스템은 백인 환자보다 흑인 환자의 경우 정확도가 낮은 결과를 반환하는 것으로 나타났습니다.
  • 지원자 추적 시스템 — 자연어 처리 알고리즘 문제로 인해 지원자 추적 시스템 내에서 편향된 결과가 생성될 수 있습니다. 예를 들어, Amazon은 채용 알고리즘이 남성 이력서에서 흔히 볼 수 있는 '실행됨' 또는 '포획됨'과 같은 단어를 기준으로 지원자를 선호한다는 사실을 발견한 후 채용 알고리즘 사용을 중단했습니다.
  • 온라인 광고 — 검색 엔진 광고 알고리즘의 편향은 직무 역할의 성별 편향을 심화시킬 수 있습니다. 피츠버그에 있는 카네기 멜론 대학의 독립적인 연구에 따르면, Google의 온라인 광고 시스템은 여성보다 남성에게 더 높은 급여를 제공하는 직책을 더 자주 표시하는 것으로 나타났습니다.
  • 이미지 생성 학술 연구 결과, 생성형 AI 아트 생성 애플리케이션 Midjourney에 편향이 있는 것으로 밝혀졌습니다. 전문 직종에 종사하는 사람들의 이미지를 만들어 달라는 요청에는 젊은 사람과 나이든 사람이 모두 등장했지만, 나이든 사람은 항상 남성으로 나타나 직장에서 여성의 역할에 대한 성별 편견이 심화되었습니다.
  • 예측 치안 도구 — 형사 사법 제도의 일부 조직에서 사용하는 AI 기반 예측 치안 도구는 범죄가 발생할 가능성이 높은 영역을 식별하는 데 사용됩니다. 그러나 과거의 체포 데이터에 의존하는 경우가 많으며, 이는 기존의 인종 프로파일링 패턴과 소수 민족 커뮤니티에 대한 불균형적인 표적화를 심화시킬 수 있습니다.

편향성 감소 및 AI 거버넌스

AI의 편향성을 파악하고 해결하는 것은 조직의 AI 활동을 지시, 관리 및 모니터링하는 능력, 즉 AI 거버넌스에서 시작됩니다. 실제로 AI 거버넌스는 AI 기술의 책임감 있는 개발과 사용을 안내하는 일련의 정책, 관행 및 프레임워크를 만듭니다. AI 거버넌스가 잘 수행되면 기업, 고객, 직원, 사회 전체에 균형 잡힌 혜택이 제공될 수 있습니다.

AI 거버넌스 정책을 통해 기업은 다음과 같은 관행을 구축할 수 있습니다.

  • 규정 준수 — AI 솔루션 및 AI 관련 의사 결정은 관련 산업 규정 및 법적 요구 사항과 일치해야 합니다.
  • 신뢰 — 고객의 정보를 보호하기 위해 노력하는 기업은 브랜드 신뢰를 구축하고 신뢰할 수 있는 AI 시스템을 만들 가능성이 더 높습니다.
  • 투명성 — AI의 복잡성으로 인해 알고리즘은 알고리즘을 생성하는 데 사용된 데이터에 대한 인사이트가 거의 없는 블랙박스 시스템이 될 수 있습니다. 투명성은 편향되지 않은 데이터를 사용하여 시스템을 구축하고 공정한 결과를 보장하는 데 도움이 됩니다.
  • 효율성 — AI의 가장 큰 장점 중 하나는 수작업을 줄이고 직원의 시간을 절약할 수 있다는 점입니다. AI는 비즈니스 목표를 달성하고 시장 출시 속도를 개선하며 비용을 절감하는 데 도움이 되도록 설계되어야 합니다.
  • 공정성 — AI 거버넌스에는 공정성, 형평성 및 포용성을 평가하는 방법이 포함되는 경우가 많습니다. 사실과 반대되는 공정성과 같은 접근 방식은 성별, 인종 또는 성적 지향과 같은 민감한 속성이 변경된 경우에도 모델 결정의 편향을 식별하고 공평한 결과를 보장합니다.
  • 인간의 손길 - "휴먼 인 더 루프(human-in-the-loop)" 시스템과 같은 프로세스는 옵션을 제공하거나 권장 사항을 제시한 다음 결정을 내리기 전에 사람이 검토하여 또 다른 품질 보증 계층을 제공합니다.
  • 강화 학습 - 이 비지도 학습 기법은 보상과 처벌을 사용하여 시스템이 작업을 학습하도록 가르칩니다. McKinsey는 강화 학습이 인간의 편견을 초월하여 '노련한 실무자조차도 고려하지 않았던 이전에는 상상하지 못했던 솔루션과 전략'을 만들어낼 수 있는 잠재력을 가지고 있다고 말합니다.

편향성, AI 및 IBM

적절한 기술 조합은 효과적인 데이터 및 AI 거버넌스 전략에 매우 중요하며, 최신 데이터 아키텍처와 신뢰할 수 있는 AI 플랫폼이 핵심 구성 요소입니다. 데이터 패브릭 아키텍처 내의 정책 오케스트레이션은 복잡한 AI 감사 프로세스를 간소화할 수 있는 훌륭한 툴입니다. AI 감사 및 관련 프로세스를 데이터 아키텍처의 거버넌스 정책에 통합함으로써 조직은 지속적인 검사가 필요한 영역을 파악하는 데 도움을 받을 수 있습니다.

IBM Consulting에서는 고객이 편향 및 기타 영역에 대한 평가 프로세스를 설정하도록 돕고 있습니다. AI 도입이 확대되고 혁신이 발전함에 따라 보안 지침도 수년에 걸쳐 기업 구조에 내장된 모든 기술의 경우와 마찬가지로 성숙해질 것입니다. 아래에서는 조직이 환경 전반에 걸쳐 AI를 안전하게 배포할 수 있도록 준비하는 데 도움이 되는 IBM의 몇 가지 모범 사례를 공유합니다.

  1. 공급업체의 정책 및 관행을 평가하여 신뢰할 수 있는 AI를 활용합니다.
  2. 사용자, 모델 및 데이터에 대한 보안 액세스를 활성화합니다.
  3. AI 모델, 데이터, 인프라를 적대적 공격으로부터 보호합니다.
  4. 교육, 테스트 및 운영 단계에서 데이터 개인정보 보호를 구현합니다.
  5. 위협 모델링 및 보안 코딩 관행을 AI 개발 라이프사이클에 적용합니다.
  6. AI 애플리케이션 및 인프라에 대한 위협 탐지 및 대응을 수행합니다.
  7. IBM AI 프레임워크를 통해 AI 성숙도를 평가하고 결정합니다.
 

작가

IBM Data and AI Team