태그

AI 정화: 유해 콘텐츠에 대한 HAP 필터링

작성자

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

월드 와이드 웹은 연결을 촉진하고 비즈니스 성장을 가속화하며, 이를 통해 수 세기에 걸친 지식을 손끝에서 사용할 수 있습니다.

그러나 모든 이점에도 불구하고 혐오 발언과 유해한 콘텐츠의 오물 구덩이가 될 수도 있습니다. 그리고 이 오물 구덩이는 대규모 언어 모델(LLM) 및 자연어 처리(NLP) 기능과 같은 오늘날의 많은 파운데이션 모델을 학습하는 데 사용되는 방대한 인터넷 데이터의 바다로 유출됩니다.

이러한 공격적인 언어의 침투는 이 인공 지능(AI) 모델의 무결성과 유용성을 위협합니다. 어째서일까요? 인간의 증오 행동이 포함된 데이터 세트로 LLM을 학습시키면 해로운 결과를 초래할 수 있기 때문입니다. 게다가 이러한 유해한 콘텐츠는 미세 조정, AI 모델에서 검색 증강 생성(RAG)을 통한 최적화 또는 LLM이 사용자와 상호 작용하는 동안에도 침투할 수 있습니다.

모욕적인 콘텐츠를 필터링하고 제거하는 것은 AI 모델이 안전하고 포용적이며 편향되지 않은 사용자에게 긍정적인 경험을 제공하도록 하는 데 핵심적인 역할을 합니다. 이러한 솔루션 중 하나는 HAP 필터링으로, 모델을 기반으로 한 혐오, 학대, 비속어(HAP)에 대한 체계적인 필터링입니다.

HAP 필터링이란 무엇인가요?

HAP 필터링은 분류 모델을 사용하여 LLM의 입력 및 아웃풋 텍스트에서 증오 발언, 욕설 및 비속어를 감지하고 제거하는 시스템입니다.

분류 모델이란 무엇인가요?

HAP 필터링을 완전히 이해하려면 분류 모델을 이해하는 것이 좋습니다. 분류 모델은 데이터 포인트를 클래스라고 하는 미리 정의된 그룹으로 나누는 머신 러닝 모델입니다. 입력 데이터에서 클래스 특성을 학습한 다음, 학습한 특성에 따라 새로운 데이터에 가능한 클래스를 할당합니다. 예를 들어 스팸 이메일 필터는 분류 알고리즘을 사용합니다. HAP 필터링 분류 모델은 보다 구체적으로 문장 분류기라고도 하며, 더 간단하게는 HAP 필터 또는 HAP 감지기라고도 합니다.

HAP 콘텐츠란 무엇인가요?

증오 발언, 욕설, 비속어는 다음과 같이 정의할 수 있습니다.

증오 발언: 인종, 종교, 민족, 성적 지향, 장애 또는 성별과 같은 속성을 기반으로 개인 또는 집단에 대한 증오를 표현하는 것입니다. 증오 발언은 집단 구성원에게 상처, 굴욕감 또는 모욕감을 주려는 의도를 나타내거나, 폭력 또는 사회적 무질서를 조장하려는 의도를 나타냅니다.
욕설: 누군가 또는 무언가를 괴롭히거나, 폄하하거나, 비하하기 위한 무례하거나 상처를 주는 언어입니다.
비속어: 욕설, 모욕 또는 성적으로 노골적인 언어와 같은 유해한 단어입니다.

HAP 필터링은 어떻게 작동하나요?

실제로 HAP 필터링 문장 분류기는 모델의 인풋 또는 아웃풋 텍스트의 각 단어를 평가하여 HAP 콘텐츠가 포함되어 있는지를 확인합니다. 그런 다음 HAP 콘텐츠가 존재할 가능성을 나타내는 점수를 0에서 1까지 할당합니다. 이 경우 점수가 1에 가까울수록 HAP 콘텐츠의 가능성이 높음을 나타냅니다. 사용자가 HAP 콘텐츠에 설정한 임계값(예: '0.5보다 큰 점수 = HAP')에 따라 모델은 각 문장에 HAP 포함 여부를 나타내는 레이블을 할당합니다.

마지막으로, HAP 콘텐츠가 사전 학습 데이터에 있는 경우 플래그를 지정하고 제거할 수 있습니다. 또는 HAP 콘텐츠가 아웃풋인 경우 아웃풋에 포함된 유해 텍스트가 제거되었음을 나타내는 가드레일 메시지로 대체될 수 있습니다.

AI 아카데미

AI 신뢰도, 투명성 그리고 거버넌스

AI 신뢰도가 AI 분야에서 가장 중요한 주제라는 데는 거의 모든 사람이 동의할 겁니다. 동시에, AI 신뢰도는 다루기에 너무 벅찬 주제이기도 합니다. 할루시네이션, 편견, 위험과 같은 문제를 분석하고 윤리적이면서도 책임감 있고 공정한 방식으로 AI를 도입하는 방법을 함께 살펴보겠습니다.

에피소드로 이동

HAP 필터 사용 사례

IBM Research에 따르면 현재 HAP 필터에는 세 가지 주요 사용 사례가 있습니다.

LLM 학습 데이터 필터링
강화 학습을 사용한 모델 정렬
생성형 AI 아웃풋 제어

LLM 학습 데이터 필터링

LLM은 일반적으로 다양한 데이터 소스에 대해 훈련되며, 그 중 일부에는 혐오성 콘텐츠나 부적절한 콘텐츠가 포함될 수 있습니다. HAP 필터링은 LLM이 이러한 콘텐츠에서 학습하는 것을 방지하는 데 도움이 될 수 있습니다. 여전히 대량의 원시 데이터가 있는 경우 데이터 전처리 중에 종종 발생합니다.

강화 학습을 사용한 모델 정렬

HAP 모델은 정렬 중에도 사용됩니다. 예를 들어, 강화 학습을 통한 정렬은 아웃풋이 의도한 목표와 얼마나 일치하는지에 따라 아웃풋을 보상합니다. HAP 필터를 사용하여 보상에 점수를 매기는 경우 보상은 '비 HAP' 점수일 수 있으며, 그런 다음 모델은 이를 최대화하도록 학습됩니다.

생성형 AI 아웃풋 제어

HAP 모델은 원래 모델을 다시 학습시키지 않고도 생성형 AI 모델 아웃풋을 제어하는 데 도움이 될 수 있습니다. 이 제어를 위해서는 원래 채점 방식과 HAP 채점을 모두 사용하여 모델 예측의 점수를 매기도록 생성 프로세스를 수정하여, 허용 가능하며 혐오가 없는 콘텐츠를 보장해야 합니다.

HAP 필터링 외에도 부정확하거나 부적절하거나 편향된 데이터가 모델에 들어오거나 빠져나가는 경우를 줄이기 위해 다른 데이터 정리, 데이터 품질 및 정렬 단계를 수행하는 경우가 많다는 점에 유의해야 합니다.

IBM의 차세대 HAP 필터: 오픈 소스 및 공격 범위

많은 AI 인접 기술과 마찬가지로 HAP 필터링의 세계에서도 혁신이 빠르게 진행되고 있습니다. IBM 연구원들은 HAP 필터를 개선하는 두 가지 방법, 즉 더 작은 오픈 소스 모델과 공격적인 범위 식별 도구를 찾아냈습니다.

더 작은 오픈 소스 HAP 필터

이상적인 세상에서는 LLM 라이프사이클의 각 단계에서 HAP 필터링이 발생할 것입니다. 그러나 이러한 용도로 사용하려면 오늘날 대부분의 HAP 필터는 크기가 크기 때문에 속도가 부족합니다.

이는 IBM의 더 빠르고 새로운 HAP 필터인 Granite-Guardian-HAP-38m에 영감을 주었습니다. 3,800만 개의 매개변수로 이루어진 이 인코더 모델은 1억 2,500만 개의 이전 모델(Granite-Guardian-HAP-125m)보다 작습니다. 따라서 중앙 처리 장치(CPU)에서는 8배, 그래픽 처리 장치(GPU)(스마트폰과 PC 모두에 존재)에서는 2배 더 빠르게 실행하여 LLM 라이프사이클의 각 단계에서 데이터를 빠르게 필터링할 수 있습니다.

두 HAP 필터링 모델 버전은 watsonx.ai에서 사용할 수 있습니다. 하지만 IBM은 신뢰할 수 있는 AI 에코시스템을 계속 장려하기 위해 Hugging Face에 두 가지 HAP 필터를 모두 오픈소스로 제공했습니다.

IBM의 오픈 소스 HAP 필터에 대해 자세히 보기

공격 범위 식별

HAP 필터에 더 많은 세분성과 언어 다양성을 도입하기 위해 IBM 연구원들은 MUTED: A MUltilingual Targeted Demonstration이라는 HAP 시각화 도구를 개발했습니다.

MUTED는 문장 수준 주석을 넘어, 문장을 '대상'과 공격 범위(또는 모욕적인 주장)로 나눕니다. 예를 들어 '저 사람들은 끔찍한 운전자들이다'라는 문장에서 대상은 '저 사람들'이고 공격 범위는 '끔찍한 운전자들'입니다. MUTED가 공격 범위를 식별하고, 히트맵을 사용하여 강도의 순위를 매긴 다음, 유해한 것으로 간주되는 경우 이를 사용자에게 숨긴다는 아이디어입니다.¹