올가을, LinkedIn은 채용 담당자를 위한 최초의 AI 에이전트를 출시했습니다. 바로 채용 도우미입니다. OpenAI의 GPT를 기반으로 하는 이 신제품은 직무 설명 작성, 후보자 소싱, 지원 문의 처리 등 일반적으로 채용 담당자의 시간을 소모하는 다양한 작업을 자동화합니다. 이 툴은 LinkedIn의 방대한 사용자 데이터를 사용하여 일반적으로 위치나 모교와 같은 요소를 기준으로 후보자를 정렬하는 기존 필터보다 기술에 우선순위를 둡니다.
Hiring Assistant는 채용을 위해 설계된 방대하고 다양한 AI 분야에 새롭게 등장한 기술이며, Microsoft, Indeed, Google, IBM 등 여러 기업의 툴이 존재합니다. 또한 이에 대한 수요도 있습니다. 최근 IBM 설문조사 결과에 따르면 인사 및 인재 확보 요구가 AI 도입을 이끄는 사용 사례의 19%를 차지합니다. LinkedIn 또한 많은 동종 기업과 마찬가지로 자사의 새로운 툴이 지닐 수 있는 잠재적 편향을 인지하고 있으며 이를 완화하기 위해 노력할 것이라고 밝혔습니다. 하지만 이것만으로 충분할지는 알 수 없습니다.
“[HR Assistant]는 훌륭한 아이디어이지만, 우리는 투명성을 확보해야 하며 툴이 채용 공고의 어떤 기술이나 키워드를 기반으로 추론하는지 알아야 합니다.”라고 기자이자 The Algorithm: How AI Decides Who Gets Hired, Monitored, Promoted and Fired and Why We Need to Fight Back Now의 저자인 Hilke Schellmann은 말합니다. “우리는 이러한 기술에서 너무 많은 오작동을 보았습니다.”
AI 기반 채용 툴의 사용이 증가함에 따라 주 및 시 의회도 이에 주목하기 시작했습니다. 뉴욕시는 이제 기업에게 AI 채용 시스템의 성능을 공개하고 편견 감사를 실시하도록 요구하고 있습니다. 캘리포니아에서는 (AI를 명시하지는 않았지만) 교차 정체성을 이유로 한 차별을 금지하는 새로운 법이 시행되고 있습니다. 또한 미국 노동부는 이러한 툴의 사용이 증가함에 따라 고용주들이 포용적 채용을 촉진할 수 있도록 돕는 프레임워크를 마련했습니다.
워싱턴 대학교 정보 학교의 박사 과정 학생인 Kyra Wilson은 AI 채용 툴이 다양한 직업과 사회 집단을 어떻게 차별할 수 있는지 조사하는 데 관심이 있습니다. 최근 그녀는 다양한 성별과 인종을 나타내도록 이름이 변경된 554개의 이력서와 571개의 직무 설명을 검토하는 연구를 주도했습니다. "우리는 이러한 툴이 특정 후보자에게 부당한 불이익을 줄 수 있는지 확인하고 싶었습니다."라고 Wilson은 말합니다.
연구원들은 Salesforce, Contextual AI 및 Mistral AI의 세 가지 오픈 소스 LLM을 테스트했습니다. 연구 결과, 경력이나 교육과 같은 자격을 통제했음에도 불구하고 모델이 여전히 백인과 관련된 이름을 가진 후보자를 선호하는 비율은 85%, 여성과 관련된 이름을 가진 후보자를 선호하는 비율은 11%에 불과했습니다. 그리고 그들은 모델이 기존의 사회적 편견을 복제할 뿐만 아니라 새로운 패턴도 도입한다는 것을 발견했습니다.
"우리가 사용한 모델은 도메인별 데이터 세트에서 미세 조정되지 않았기 때문에 일반적으로 이러한 그룹과 관련이 없는 직책에서도 백인과 남성을 선호하는 전반적인 사회적 편견이 발생하기 시작하는 것을 관찰했습니다."라고 Wilson은 말합니다. "이러한 모델을 대규모로 사용하면 사회적 고용 패턴을 부정적인 방식으로 변화시킬 수 있습니다."
교차성과 관련된 편견(이 경우 인종과 성별이 겹치는 부분)도 결과에서 나타났으며, 특히 흑인 남성의 경우 최대 100%의 사례에서 불이익을 받았습니다. "교차성은 우리 조사에서 중요한 부분이었는데, 이는 사람들이 실제로 어떻게 차별받는지 더 잘 보여주기 때문입니다."라고 Wilson은 말했습니다. "사람들은 성별이나 인종과 같은 특성을 단독으로 인식하지 않기 때문에 이러한 특성을 개별적으로 연구한다고 해서 이러한 시스템의 진정한 사회적 영향을 전체적으로 파악할 수 있는 것은 아닙니다."
Wilson의 연구는 이름으로 드러나는 정체성만 조사했지만, 현실 세계에서는 사람들이 수상 경력, 거주지, 심지어 이력서에 사용하는 단어를 통해 자신의 정체성을 드러낼 수도 있다는 점에 주목했습니다. 이러한 모든 요소는 AI가 이들을 평가하는 데 중요한 역할을 할 수 있으며, 많은 요소가 강력한 후보자를 구별하는 것과도 관련이 있기 때문에 중요한 정보를 제거하지 않고는 검토 과정에서 이름을 쉽게 제거할 수 없습니다.
Wilson은 "이러한 요소가 교차하는 ID에 어떻게 신호를 보낼 수 있는지, 그리고 이것이 AI 평가에 중요한 역할을 하는지에 대해 더 많이 배우는 것은 연구자와 모델 개발자에게 중요한 다음 단계입니다."라고 말합니다.
결국 데이터는 이러한 AI 모델을 구축하는 기반입니다. IBM의 선임 연구원인 Moninder Singh에 따르면, 암묵적이든 명시적이든, 역사적이든 사회적이든, 대부분의 편견이 여기에서 발생합니다. 모든 종류의 AI 툴에서 편향을 완화하는 가장 효과적인 방법은 LLM 학습 단계 초기에(그리고 해당하는 경우 후속 미세 조정) 이러한 문제를 해결하는 것입니다.
Singh는 채용 담당자가 사용하는 툴과 같은 AI 기반 툴을 구축하는 대부분의 조직에서 편견을 해결하는 것이 기본 수준에서 항상 가능한 것은 아니라고 설명합니다. 자체 LLM을 학습할 리소스를 보유한 기업은 거의 없기 때문에 일반적으로 OpenAI의 GPT 또는 Google의 PaLM과 같은 사전 학습된 모델을 사용하여 특정 사용 사례에 맞게 미세 조정합니다. 하지만 이러한 미세 조정으로는 한계가 있다고 Singh은 말합니다. 실제로 편향 완화는 종종 데이터 수준에서 발생하며, 기업은 LLM을 특정 데이터 세트에 맞게 조정하고, 이는 액세스할 수 있는 데이터에 따라 형성됩니다.
"채용과 같은 특정 작업과 관련된 잠재적으로 방대한 양의 데이터를 사용하여 모범 사례를 채택하고 미세 조정하더라도 시스템을 실생활에 적용하면 여전히 편향이 나타날 수 있습니다."라고 Singh은 말합니다.
Singh는 기업이 아웃풋 수준에서 편향을 실시간으로 감지하고 완화하는 다양한 전략을 구현할 수 있다고 설명합니다. 예를 들어, AI 채용 툴은 후보자의 최종 명단을 생성할 수 있으며, 기업은 뉴욕시의 새로운 법률에 따라 요구되는 공정성을 위해 이러한 추천을 평가할 수 있습니다. 편향이 감지되면(예: 한 그룹이 다른 그룹보다 지속적으로 낮은 순위가 지정되는 경우) 개발자는 학습 데이터를 구체화하거나 후처리 기술을 사용하여 권장 사항에 다시 가중치를 부여하여 모델을 조정할 수 있습니다.
후처리 방법을 사용하면 시스템의 성능에 부정적인 영향을 주지 않으면서 점수나 순위를 조정하여 더 공정하게 만들 수도 있다고 Singh은 설명합니다. 편향성 탐지 및 완화를 위한 오픈 소스 툴킷인 IBM의 AI Fairness 360과 같은 툴은 이를 위한 일련의 기술을 제공합니다. IBM은 또한 AI가 생성한 콘텐츠의 편향성 위험을 식별하도록 미세 조정된 Granite Guardian과 같은 모델을 통해 편향성 탐지 작업을 진행하고 있습니다.
이러한 모델은 의사 결정에 대한 설명을 생성하고 해당 설명에 편향 지표가 나타나는지 확인하여 아웃풋과 같은 이력서 순위를 평가하는 데 사용할 수 있습니다. 마찬가지로, IBM의 watsonx.governance 툴킷을 사용하면 편향 탐지 등 생성 모델의 거버넌스를 watsonx 플랫폼에 배포할 수 있습니다. 또한 IBM의 SocialStigmaQA 벤치마크는 기존의 편견 테스트에서는 종종 간과되지만 정신 건강이나 약물 사용과 같이 채용과 같이 민감한 애플리케이션에서는 중요할 수 있는 낙인과 관련된 편견에 대해 LLM을 테스트합니다.
"채용 툴과 같은 AI 기반 시스템 개발자가 편견을 없애기 위해 최선의 노력을 기울이고 있음에도 불구하고 모든 최종 사용자의 특정 상황을 해결할 수는 없으며, 특히 해당 최종 사용자가 그런 수준에서 편향을 확대하거나 도입하지 않도록 충분히 주의해야 합니다."라고 Singh은 말합니다. "채용 툴의 최종 사용자도 마찬가지로 모든 단계에 다양성을 도입해야 합니다."
