월드 와이드 웹은 연결을 촉진하고 비즈니스 성장을 가속화하며, 이를 통해 수 세기에 걸친 지식을 손끝에서 사용할 수 있습니다.
그러나 모든 이점에도 불구하고 혐오 발언과 유해한 콘텐츠의 오물 구덩이가 될 수도 있습니다. 그리고 이 오물 구덩이는 대규모 언어 모델(LLM) 및 자연어 처리(NLP) 기능과 같은 오늘날의 많은 파운데이션 모델을 학습하는 데 사용되는 방대한 인터넷 데이터의 바다로 유출됩니다.
이러한 공격적인 언어의 침투는 이 인공 지능(AI) 모델의 무결성과 유용성을 위협합니다. 어째서일까요? 인간의 증오 행동이 포함된 데이터 세트로 LLM을 학습시키면 해로운 결과를 초래할 수 있기 때문입니다. 게다가 이러한 유해한 콘텐츠는 미세 조정, AI 모델에서 검색 증강 생성(RAG)을 통한 최적화 또는 LLM이 사용자와 상호 작용하는 동안에도 침투할 수 있습니다.
모욕적인 콘텐츠를 필터링하고 제거하는 것은 AI 모델이 안전하고 포용적이며 편향되지 않은 사용자에게 긍정적인 경험을 제공하도록 하는 데 핵심적인 역할을 합니다. 이러한 솔루션 중 하나는 HAP 필터링으로, 모델을 기반으로 한 혐오, 학대, 비속어(HAP)에 대한 체계적인 필터링입니다.
HAP 필터링은 분류 모델을 사용하여 LLM의 입력 및 아웃풋 텍스트에서 증오 발언, 욕설 및 비속어를 감지하고 제거하는 시스템입니다.
증오 발언, 욕설, 비속어는 다음과 같이 정의할 수 있습니다.
실제로 HAP 필터링 문장 분류기는 모델의 인풋 또는 아웃풋 텍스트의 각 단어를 평가하여 HAP 콘텐츠가 포함되어 있는지를 확인합니다. 그런 다음 HAP 콘텐츠가 존재할 가능성을 나타내는 점수를 0에서 1까지 할당합니다. 이 경우 점수가 1에 가까울수록 HAP 콘텐츠의 가능성이 높음을 나타냅니다. 사용자가 HAP 콘텐츠에 설정한 임계값(예: '0.5보다 큰 점수 = HAP')에 따라 모델은 각 문장에 HAP 포함 여부를 나타내는 레이블을 할당합니다.
마지막으로, HAP 콘텐츠가 사전 학습 데이터에 있는 경우 플래그를 지정하고 제거할 수 있습니다. 또는 HAP 콘텐츠가 아웃풋인 경우 아웃풋에 포함된 유해 텍스트가 제거되었음을 나타내는 가드레일 메시지로 대체될 수 있습니다.
IBM Research에 따르면 현재 HAP 필터에는 세 가지 주요 사용 사례가 있습니다.
LLM은 일반적으로 다양한 데이터 소스에 대해 훈련되며, 그 중 일부에는 혐오성 콘텐츠나 부적절한 콘텐츠가 포함될 수 있습니다. HAP 필터링은 LLM이 이러한 콘텐츠에서 학습하는 것을 방지하는 데 도움이 될 수 있습니다. 여전히 대량의 원시 데이터가 있는 경우 데이터 전처리 중에 종종 발생합니다.
HAP 모델은 원래 모델을 다시 학습시키지 않고도 생성형 AI 모델 아웃풋을 제어하는 데 도움이 될 수 있습니다. 이 제어를 위해서는 원래 채점 방식과 HAP 채점을 모두 사용하여 모델 예측의 점수를 매기도록 생성 프로세스를 수정하여, 허용 가능하며 혐오가 없는 콘텐츠를 보장해야 합니다.
많은 AI 인접 기술과 마찬가지로 HAP 필터링의 세계에서도 혁신이 빠르게 진행되고 있습니다. IBM 연구원들은 HAP 필터를 개선하는 두 가지 방법, 즉 더 작은 오픈 소스 모델과 공격적인 범위 식별 도구를 찾아냈습니다.
이상적인 세상에서는 LLM 라이프사이클의 각 단계에서 HAP 필터링이 발생할 것입니다. 그러나 이러한 용도로 사용하려면 오늘날 대부분의 HAP 필터는 크기가 크기 때문에 속도가 부족합니다.
이는 IBM의 더 빠르고 새로운 HAP 필터인 Granite-Guardian-HAP-38m에 영감을 주었습니다. 3,800만 개의 매개변수로 이루어진 이 인코더 모델은 1억 2,500만 개의 이전 모델(Granite-Guardian-HAP-125m)보다 작습니다. 따라서 중앙 처리 장치(CPU)에서는 8배, 그래픽 처리 장치(GPU)(스마트폰과 PC 모두에 존재)에서는 2배 더 빠르게 실행하여 LLM 라이프사이클의 각 단계에서 데이터를 빠르게 필터링할 수 있습니다.
두 HAP 필터링 모델 버전은 watsonx.ai에서 사용할 수 있습니다. 하지만 IBM은 신뢰할 수 있는 AI 에코시스템을 계속 장려하기 위해 Hugging Face에 두 가지 HAP 필터를 모두 오픈소스로 제공했습니다.
HAP 필터에 더 많은 세분성과 언어 다양성을 도입하기 위해 IBM 연구원들은 MUTED: A MUltilingual Targeted Demonstration이라는 HAP 시각화 도구를 개발했습니다.
MUTED는 문장 수준 주석을 넘어, 문장을 '대상'과 공격 범위(또는 모욕적인 주장)로 나눕니다. 예를 들어 '저 사람들은 끔찍한 운전자들이다'라는 문장에서 대상은 '저 사람들'이고 공격 범위는 '끔찍한 운전자들'입니다. MUTED가 공격 범위를 식별하고, 히트맵을 사용하여 강도의 순위를 매긴 다음, 유해한 것으로 간주되는 경우 이를 사용자에게 숨긴다는 아이디어입니다.1
1 "Muted: Multilingual Targeted Offensive Speech Identification and Visualization," Association for Computational Linguistics, 2023년 12월.
3세대 AI 언어 모델 을 만나보세요. 목적에 적합하며 오픈 소스로 제공되는 이 엔터프라이즈 지원 모델은 사이버 보안에서 RAG에 이르기까지 광범위한 엔터프라이즈 작업에서 안전 벤치마크에 대한 탁월한 성능을 제공합니다.
watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
AI의 잠재력을 최대한 활용하고, AI 거버넌스를 통해 직원들이 AI에 대해 더 확신을 가질 수 있도록 하며, AI 도입과 혁신을 빠르게 진전시키고 고객의 신뢰를 높이는 방법을 알아보세요.