LLM 정렬이란 무엇인가요?

By Dave Bergmann

LLM 정렬 설명

LLM 정렬은 대규모 언어 모델(LLM)의 출력이 사용자, 개발자 및 사회 전반에 유익한 방식으로 인간의 가치에 부합하도록 보장하는 데 중점을 둔 분야입니다. 이 목표를 달성하기 위해 다양한 사전 학습 및 미세 조정 기법을 활용할 수 있습니다.

“인간의 가치”는 추상적이고 모호한 개념이기 때문에, 정렬의 목표를 체계적으로 구체화하고 정의하는 일은 정렬 과정에서 가장 어려운 부분 중 하나입니다. 일반적으로 대부분의 노력은 2021년 Anthropic이 제시한 “HHH” 기준, 즉 유용성, 정직성, 무해성의 어떤 형태를 따릅니다.¹

에이전틱 AI와 현대 인공지능 전반에서 LLM의 중요성을 고려할 때, LLM을 적절히 정렬하는 것은 AI 안전의 핵심 요소가 되었습니다. 단기적으로 LLM 정렬은 LLM 기반 AI 시스템이 예측 가능하고 신뢰할 수 있으며 책임감 있게 작동하도록 돕습니다. 장기적으로 LLM 정렬(및 전반적인 AI 정렬)은 인공 일반 지능(AGI)과 인공 초지능(ASI)의 가상적 개발과 관련된 실존적 위험을 회피하거나 최소화하는 데 필수적입니다.

LLM에 정렬이 필요한 이유는 무엇인가요?

LLM은 매우 유용할 수 있지만, 그 활용에는 윤리적 및 사회적 위험이 따릅니다. 이러한 위험은 설계 결함이나 개발자의 오류에서 비롯된 것이 아니라, 인간의 본성과 LLM을 학습시키는 방식에서 비롯된 근본적인 결과입니다.

LLM은 방대한 양의 레이블이 없는 텍스트 샘플에 대한 자기지도 사전 학습을 통해 핵심 지식과 언어 능력을 습득합니다. 훈련 데이터에 포함된 수십억 개 이상의 문장에서 발견된 패턴을 “학습”한 후, LLM은 이러한 패턴을 따르는 문법적으로 일관된 텍스트를 생성할 수 있습니다.

그러나 이 과정에서 모델의 출력은 해당 훈련 데이터 세트에 포함된 유해한 콘텐츠를 그대로 재현할 수도 있습니다. 훈련 데이터에 편향, 부정확한 정보, 유해한 콘텐츠 또는 차별적인 관점이 포함되어 있다면, LLM이 생성하는 텍스트에도 동일한 문제가 반영됩니다. 인터넷을 무차별적으로 스크래핑하여 수집한 훈련 데이터에 개인 정보나 민감한 정보가 포함되어 있는 경우, LLM이 해당 정보를 유출할 수 있습니다. 일반적으로 LLM이 출력을 생성하는 확률적 특성은 유해한 AI 할루시네이션을 초래할 수 있습니다.

또한 LLM이 악용될 가능성 자체도 추가적인 위험을 야기합니다. 훈련 데이터에 무기나 위험한 화학 물질의 제조와 관련된 정보가 포함되어 있다면, LLM이 개인이 타인에게 해를 가하는 데 도움을 줄 수도 있습니다. 가드레일이 없다면, LLM은 위험하면서도 설득력 있는 허위 정보를 생성하는 데 사용될 수 있습니다. 가장 극단적인 가상 시나리오에서는, 정렬되지 않은 AI 모델이 이론적으로 핵전쟁을 유발할 수도 있습니다.

정렬 문제는 예상치 못한 방식으로 발생할 수 있습니다. AI 분야에서 유명한 사고 실험으로는 철학자 Nick Bostrom의 “클립 최대화기” 시나리오가 있습니다. Bostrom은 클립을 생산하도록 설계된 인공 초지능이 목표를 달성하는 최선의 방법으로 “먼저 지구 전체를, 그리고 이후에는 점점 더 많은 우주 공간을 클립 생산 시설로 변환하기 시작하는 것”이라고 판단하는 상황을 설명했습니다.²

LLM 정렬은 이러한 위험을 완화하여 LLM을 실제 환경에서 실용적으로 사용할 수 있도록 하고, 지속적인 발전이 가능할 만큼 안전하게 만들기 위한 시도로 등장한 분야입니다. LLM이 일상생활에 더욱 깊이 통합될수록, 인간의 이익과의 잠재적 불일치를 이해하고 이에 대비하는 것이 더욱 중요해집니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

AI 정렬 유형

정렬 방법은 주로 훈련 과정의 어느 단계에서 적용되는지에 따라 세 가지 범주로 나눌 수 있습니다.

외부 정렬 방법은 이미 사전 학습된 모델(많은 경우 일부 미세 조정도 완료된 모델)을 추가로 미세 조정하는 것을 목표로 합니다.

내부 정렬 방법은 모델의 초기 사전 학습 단계에 인간의 가치와 기타 안전 원칙을 직접 반영하는 것을 목표로 합니다.

기계적 해석 가능성은 LLM의 신경망 내부 작동을 분석하거나 정렬되지 않은 응답을 생성하는 패턴을 찾기 위해 모델 출력을 점검함으로써, LLM이 입력을 출력으로 변환하는 방식을 연구하는 분야입니다.

외부 정렬

오늘날 대부분의 LLM 정렬은 외부 정렬에 의존하며, 이는 기본 모델이 사전 학습 데이터에서 학습한 정렬되지 않은 행동을 수정, 억제 또는 제한하기 위한 미세 조정 기법을 의미합니다.

외부 정렬은 일반적으로 기본적인 지도 미세 조정과 지시 튜닝 이후, 미세 조정의 마지막 단계 중 하나로 수행됩니다. 이는 정렬 문제와는 별개로 모델이 실제로 사용할 가치가 있을 만큼 충분한 성능을 갖추도록 보장하는 동시에, 이후 추가 학습으로 인해 정렬 성과가 훼손되는 것을 방지하기 위해 필요합니다.

시스템 프롬프트는 정렬된 행동을 유도할 수 있지만, 모델의 “영구적인” 구성 요소가 아니며 종종 우회될 수 있습니다. 모델이 이상적인 예시를 모방하도록 학습시키는 기존의 지도 학습은 충분히 포괄적이거나 유연하지 않습니다. 따라서 많은 주요 외부 정렬 방법은 개방형 목표와 시행착오 기반 학습에 적합한 강화 학습을 중심으로 구축됩니다.

사전 학습을 통해 학습된 LLM의 행동과 비교할 때, 외부 정렬만으로 학습된 행동은 피상적이고 취약할 수 있습니다. 결국 외부 정렬은 기본 모델의 핵심 성향 위에 얹힌 얇은 검열 층에 불과합니다. 2025년 말의 한 논문에서 설명하듯, “사후 정렬 방법은 언러닝에 해당하지 않습니다.”³ 연구에 따르면, 소량의 적대적 미세 조정만으로도 외부 정렬이 무력화될 수 있습니다.⁴심지어 Grade School Math 8K(GSM8K)와 같은 완전히 무해한 데이터 세트로 이전에 정렬된 모델을 미세 조정하는 것만으로도 LLM 정렬이 크게 저하될 수 있습니다.⁵

내부 정렬

정렬되지 않은 기본 모델을 수정하는 것을 목표로 하는 외부 정렬과 달리, 내부 정렬은 정렬된 기본 모델을 생성하도록 사전 학습 방식을 설계합니다. 적어도 이론적으로 내부 정렬은 외부 정렬보다 근본적으로 더 견고합니다. 이는 모델이 이미 학습한 정렬되지 않은 행동을 억제하는 대신, 애초에 그러한 행동을 학습하지 않도록 하기 때문입니다. 내부 정렬은 외부 정렬과 상호 배타적인 개념은 아니지만, 철저한 외부 정렬의 필요성을 줄여줄 수 있습니다.

실제로는 내부 정렬이 더 어렵습니다. 이는 수십억 개에 달하는 개별 텍스트 샘플을 검토하고, 정렬되지 않은 콘텐츠를 정의하고 식별하기 위한 기준을 마련하며, 이를 데이터 세트에서 수정하거나 제거하기 위한 체계를 구축하는 것을 포함합니다. 운영상의 부담을 제외하더라도, LLM이 학습에 활용할 수 있는 훈련 데이터의 양을 줄이는 것은 성능을 극대화하는 데 있어 추가적인 어려움을 초래합니다. 그럼에도 불구하고 이는 실제로 가능하며, 예를 들어 IBM Granite 모델은 전적으로 기업 환경에 안전한 데이터로만 학습됩니다.

LLM의 내부 정렬에 대한 연구는 외부 정렬에 비해 아직 초기 단계에 있습니다. LLM의 행동을 정렬하는 것과 순수한 성능을 추구하는 것 사이에서 최적의 균형을 찾는 것은 현재 연구의 핵심 과제입니다.

기계적 해석 가능성

기계적 해석 가능성은 LLM 정렬을 직접 달성하는 것을 목표로 하기보다, 정렬을 개선할 수 있는 기회를 식별하고 정렬 방법이 고려해야 할 취약점을 발견하는 데 목적이 있습니다.

예를 들어, 2024년 논문에서는 정렬된 LLM이 유해하고 안전하지 않은 것으로 간주되는 프롬프트에 대한 응답을 거부할 때마다 해당 신경망의 내부 작동 방식을 조사했습니다. 연구진은 13개의 서로 다른 LLM에서 매우 구체적이고 단순하며 일관된 활성화 패턴에 의해 거부가 유발된다는 사실을 발견했습니다. 이후 연구진은 해당 활성화 패턴에 대응하여 모델이 유해한 입력에 대해 거부 반응을 보이지 않도록 하는 것이 비교적 쉽다는 것을 입증함으로써 외부 정렬 방법의 주요 취약점을 드러냈습니다.⁶ 이러한 탈옥 기법은 현재 일반적으로 'abliteration'라고 불립니다.

일부 접근 방식은 모델 아키텍처에 직접 해석 가능성을 구축하는 것을 목표로 합니다. 예를 들어, Guide Lab의 실험적인 LLM 아키텍처는 모델 아키텍처에 '컨셉 모듈'을 추가했습니다. 사전 학습 중에 LLM이 처리하는 모든 토큰은 해당 개념 모듈을 반드시 통과하도록 설계되었으며, 이 모듈은 모델이 학습한 특정 '개념'에 따라 해당 토큰의 임베딩을 라벨링하도록 학습되었습니다. 이러한 개념은 알려진 개념(학습 데이터에서 직접 전달된 아이디어), 발견된 개념(모델이 스스로 암묵적으로 학습한 아이디어), 잔여 개념(그 외 나머지 모든 요소)이라는 세 가지 범주로 나뉩니다. 이를 통해 연구자는 어떤 개념(그리고 더 나아가 어떤 학습 데이터)이 주어진 아웃풋에 영향을 미쳤는지 식별할 수 있을 뿐만 아니라 특정 개념을 무시하거나 우선순위를 지정하도록 지시하여 모델 아웃풋을 조정할 수 있습니다.

기계적 해석 가능성은 모델의 내부 수학적 논리에만 초점을 맞추는 것이 아니라 모델 아웃풋에 대한 체계적인 분석을 포함할 수도 있습니다. 이는 초기 프롬프트에 대한 최종 응답을 생성하기 전에 언어화된 '사고 과정'을 출력하는 것으로 보이는 추론 모델을 이해하는 것과 특히 관련이 있습니다. 한 주목할 만한 연구에서 Anthropic 연구진은 추론 모델이 자신의 사고 과정을 언어화할 때 항상 ‘정직’하지는 않으며, 이는 정렬성을 평가하는 데 중요한 영향을 미칠 수 있다는 사실을 발견했습니다.

AI 아카데미

AI의 미래를 위한 보안 및 거버넌스 통합

AI 아카데미의 이번 에피소드는 오늘날 가장 주목받는 트렌드인 에이전틱 AI를 중심으로 위험 및 보증 리더들이 거버넌스와 보안 사이에서 겪는 긴장 관계를 살펴봅니다. 두 영역 간의 균형을 확립하고 협력 관계를 우선시하는 것은 조직이 확장 가능한 더 나은, 보다 신뢰할 수 있는 데이터와 AI를 구현하는 데 중요합니다.

에피소드로 이동

외부 정렬 기법

외부 정렬은 주로(하지만 이에 국한되지는 않음) 학습된 LLM을 더 잘 정렬되도록 미세 조정하는 데 초점을 맞춥니다.

시스템 프롬프트

시스템 프롬프트는 LLM 기반 AI 시스템에서 일반적으로 사용되는 요소입니다. 시스템 프롬프트에는 모델이 받는 각 프롬프트에 추가 컨텍스트로 포함되는 지침이 담겨 있습니다. 따라서 시스템 프롬프트에 정렬 관련 지침을 포함하면, 프롬프트 단위로 LLM의 동작을 유도할 수 있습니다. 2025년에는 Anthropic의 Claude AI의 시스템 프롬프트가 16,000단어를 넘는다는 보고가 있었습니다.⁷

시스템 프롬프트는 정렬을 개선하는 가볍고 간단한 방법이지만, 미세 조정 방식에 비해 상당한 한계를 가지고 있습니다.

오픈소스 모델(또는 API를 통해 운영되는 클로즈드 소스 모델)의 시스템 프롬프트는 챗봇 서비스가 아닌 경우, 사용자가 원하는 대로 직접 설정할 수 있습니다. 정렬에 아무런 도움이 되지 않는 시스템 프롬프트를 작성하는 것은 매우 쉽습니다.

시스템 프롬프트는 프롬프트 인젝션 공격에 취약합니다.

모델이 광범위한 지시 튜닝을 거쳤더라도, 시스템 프롬프트에 제공된 지침을 항상(또는 완벽하게) 따를 것이라는 보장은 없습니다. 대화의 컨텍스트 길이가 길어질수록, 시스템 프롬프트가 모델 출력에 미치는 영향이 감소할 위험이 커집니다.

지도 미세 조정(SFT)

지도 미세 조정(SFT)은 레이블이 지정된(input, output) 데이터 쌍으로 구성된 데이터 세트를 기반으로 LLM을 미세 조정하며, 각input은 샘플 프롬프트이고 이에 대응하는output는 적절하게 정렬된 고품질 응답을 보여줍니다. 모델의 출력이 데이터 세트의 예시와 얼마나 차이가 나는지를 측정하는 손실 함수를 최소화하도록 모델 파라미터를 최적화함으로써, 모델은 더 잘 정렬된 출력을 생성할 가능성이 높아집니다. SFT는 정렬된 “교사” 모델의 동작을 정렬이 필요한 “학생” 모델로 이전하기 위해 지식 증류를 사용하는 것을 포함할 수도 있습니다.

기존 SFT 기반 정렬은 매우 취약합니다. 정렬되지 않은 출력을 유발할 수 있는 프롬프트의 가능성 범위는, 합성 데이터의 도움을 받더라도 수작업으로 구성된 데이터 세트로 현실적으로 다룰 수 있는 시나리오 범위를 훨씬 초과합니다. 이로 인해 표준 SFT 기반 정렬은 탈옥 공격에 특히 취약하며, 심지어 의도치 않게 우회될 수도 있습니다.

강화 학습

많은 외부 정렬 방법은 강화 학습(RL), 특히 인간 피드백 기반 강화 학습(RLHF) 또는 LLM을 활용해 피드백을 대신 생성하는 관련 알고리즘에 의존합니다.

인간 피드백 기반 강화 학습(RLHF)

기존 강화 학습은 모델 출력이 보상을 받을지(또는 페널티를 받을지)를 결정하는 명시적인 규칙이나, 이러한 규칙을 수학적으로 정의하는 보상 함수에 의존합니다. 그러나 인간의 가치가 지닌 주관적이고 추상적인 특성 때문에, 규칙이나 보상 함수만으로는 “정렬되었다”는 것이 무엇을 의미하는지 완전히 정의할 수 없습니다.

인간 피드백 기반 강화 학습(RLHF)은 OpenAI에서 처음 개발된 정렬 방법으로, ChatGPT 출시를 가능하게 한 GPT-3.5 모델을 탄생시킨 주요 혁신 중 하나로 평가됩니다. 이 방법은 인간 평가자가 모델 출력을 평가하도록 한 뒤, 해당 평가를 기반으로 보상 모델을 학습시켜 특정 출력에 대해 인간이 어떻게 평가할지를 예측하도록 합니다. 이후 보상 모델을 사용해 정렬 대상 LLM의 출력을 평가하고, 그 결과에 따라 근접 정책 최적화(PPO)를 사용해 모델의 파라미터를 업데이트합니다.

초기 성공적인 LLM 정렬 방법 중 하나였지만, RLHF에는 여러 가지 단점이 있습니다. 인간 선호 데이터는 비용이 많이 들고, 인간의 선호는 주관적이며 변덕스러울 수 있습니다. 또한 아첨하는 경향을 초래할 수 있으며, 객관적으로 사실에 기반한 출력보다 사용자 신념을 강화하는 방향으로 최적화되는 경향이 있습니다. 또한 보상 모델 학습과 LLM을 업데이트하는 데 사용되는 PPO 알고리즘 모두 복잡하고 계산 비용이 많이 듭니다.

AI 피드백 기반 강화 학습

AI 피드백 기반 강화 학습(RLAIF)은 대부분 RLHF와 동일한 원리로 작동합니다. 가장 기본적인 RLAIF 접근 방식은 먼저 RLHF를 통해 정렬된 모델을 만든 다음, 해당 모델을 사용해 정렬 대상 모델을 미세 조정하는 데 필요한 보상 신호를 제공하는 것입니다. 이 방법은 RLHF의 개념적 문제를 반드시 해결하지는 않지만, 정렬 학습에 필요한 시간과 비용을 크게 줄여줍니다.

Anthropic이 선도한 보다 정교한 접근 방식으로는 헌법적 AI가 있습니다. 이 방법은 모델 개발자가 LLM이 따라야 할 모든 고수준 원칙을 담은 텍스트 문서(“헌법”)를 작성하도록 요구합니다. 정렬되지 않은 모델은 프롬프트에 대한 응답을 생성한 뒤, 해당 헌법에 명시된 원칙을 얼마나 잘 따르고 있는지를 기준으로 자신의 출력을 비판하고 수정하도록 다시 프롬프트를 받습니다. 그 다음 LLM은 원본 응답과 수정된 응답 중 어떤 것이 해당 헌법을 더 잘 따르는지 선택하도록 요청받습니다. 이렇게 생성된 선호 데이터는 강화 학습(RL) 또는 직접 선호 최적화(DPO)를 통해 모델을 미세 조정하는 데 사용됩니다.

직접 선호 최적화(DPO)

직접 선호 최적화(DPO)는 RLHF(또는 RLAIF)의 기본 목표를 근사하는 미세 조정 방법으로, 별도의 보상 모델을 학습하거나 강화 학습을 사용할 필요가 없습니다. 이 방법은 RLHF와 PPO에 견줄 수 있는 성능을 달성하면서도 훨씬 단순하고 비용 효율적으로 구현할 수 있습니다.⁸

DPO를 통해 LLM을 미세 조정하기 위한 데이터 세트를 생성하기 위해 인간 주석자(또는 LLM)에게 입력 프롬프트와 해당 프롬프트에 대한 두 개의 서로 다른 출력을 제시한 후, 어느 출력을 선호하는지 선택하도록 요청합니다. 이러한 순위 지정은 레이블이 지정된 트리플릿 데이터 세트를 생성하며, 각 트리플릿에는 (input prompt, preferred output, rejected output) . 일반적인 설정에서는 정렬 대상 모델 자체가 순위를 매길 두 개의 출력을 생성하는 데 사용되지만, (비록 덜 최적이긴 하지만) 기존의 선호 데이터 세트를 사용하는 것도 가능합니다.

학습 과정에서 모델은 각 input prompt이 제공되면 출력을 생성합니다. 이후 DPO 손실 함수는 해당 프롬프트에 대해 이 출력을 preferred output과 rejected output 모두와 비교합니다. DPO 손실을 최소화하도록 모델 파라미터를 업데이트하면 다음 세 가지가 달성됩니다.

LLM이 preferred output과 유사한 출력을 생성할 가능성을 높입니다.

LLM이 rejected output과 유사한 출력을 생성할 가능성을 낮춥니다.

LLM의 자체 출력이 preferred output보다 rejected output에 더 가까울 때 더 큰 업데이트를 적용합니다—즉, 이미 잘 수행하는 경우에는 모델을 과도하게 변경하지 않도록 합니다.

내부 정렬 기법

내부 정렬 기법은 방대한 사전 학습 데이터 코퍼스를 보다 정렬된 상태로 만들어, LLM의 초기 사전 학습 단계부터 정렬을 달성하는 데 초점을 맞춥니다.

2025년에 발표된 논문 “Safety Pretraining: Toward the Next Generation of Safe AI”은 내부 정렬에 대한 포괄적인 접근 방식을 제시했습니다. 연구진은 GSM8K 데이터 세트로 후속 미세 조정을 수행한 이후, 탈옥 시도의 공격 성공률(ASR)에 미치는 영향을 기준으로 각 전략이 모델 전반의 안전성에 어떻게 기여하는지 분석했습니다. 앞서 설명했듯이, GSM8K와 같은 “무해한” 데이터 세트로 수행하는 사후 미세 조정조차도 정렬을 크게 저하시킬 수 있는 것으로 알려져 있습니다.⁵

학습 데이터 필터링

가장 직관적인 내부 정렬 방법은 사전 학습 데이터에서 유해하거나 위험하거나 부정확한 콘텐츠를 제거하도록 필터링하는 것입니다. 연구진은 대규모 오픈소스 데이터 세트의 일부를 수작업으로 주석 처리하여, 각 샘플에 대해 0(위험 없음)부터 5(최대 위험)까지의 안전 점수와 간단한 근거를 부여했습니다. 그 다음 해당 주석 데이터 세트를 기반으로 분류기를 학습시켜, 원시 사전 학습 데이터의 필터링을 자동화하는 데 활용했습니다.

흥미롭게도, 이러한 필터링이 오히려 안전 성능을 저하시킨다는 사실을 발견했습니다. 안전 점수가 0인 데이터만으로 학습했을 경우, ASR은 원시 데이터 기준 38.8%에서 43.8%로 상승했습니다. 모델이 유해한 텍스트 패턴을 전혀 접하지 못했기 때문에, 이에 적절히 대응하는 방법을 학습하지 못한 것입니다.

훈련 데이터 수정

연구진이 언급했듯이, “유해한 콘텐츠를 완전히 제거하면 중요한 정보까지 함께 버릴 위험이 있습니다.” 이를 해결하기 위해 연구진은 합성 재맥락화 전략을 사용했습니다. 유해한 데이터를 제거하는 대신, 별도의 LLM을 활용해 해당 데이터를 재표현하고 재구성하면서 윤리적 및 역사적 맥락을 추가했습니다.

이 접근 방식은 안전 점수 0~3의 데이터 샘플로 모델을 사전 학습시키는 방식으로 검증되었으며, 이 중 점수 1~3에 해당하는 샘플은 재작성되었습니다. 그 결과 ASR은 원시 데이터 기준 38.8%에서 33.6%로 감소했습니다. 모델이 민감한 주제를 책임감 있게 다루도록 하는 것이, 이를 완전히 회피하는 것보다 더 효과적이었습니다.

거부 데이터

해킹, 위해 행위, 허위 정보, 개인정보 침해 또는 부적절한 성적 콘텐츠와 같이 본질적으로 유해한 입력의 경우, 해당 주제에 대한 참여를 거부하는 것이 유일하게 건설적인 대응입니다. 이에 따라 연구진은 유해한 요청에 대해 건설적으로 거부하는 데이터 세트를 구성하여, 아이들에게 잠재적으로 위험한 상황을 인식하고 완화하며 회피하도록 가르치는 방식을 모방했습니다.

안전 점수 4~5의 원시 데이터에 대한 거부 데이터와, 점수 1~3의 재작성 데이터 및 점수 0의 원시 데이터를 함께 추가했을 때, ASR은 33.6%에서 25.1%로 감소하여 8.5%포인트 개선되었습니다.

도덕 교육 데이터

모델에게 언제 대응을 중단해야 하는지를 가르치는 것과 왜 중단해야 하는지를 가르치는 것은 동일하지 않습니다. 단순히 규칙을 따르는 것이 아니라 거부에 대해 추론하도록 하기 위해, 연구진은 원시 데이터에서 식별된 유해 주제의 위험성과 윤리에 관한 교육적 대화로 구성된 “도덕 교육” 합성 데이터 세트를 생성했습니다.

이러한 교육 데이터를 사전 학습에 추가하자 ASR은 25.1%에서 20.0%로 더욱 감소했습니다.

추론 시점 기법

연구진은 또한 잠재적으로 유해한 입력에 태그를 붙이도록 모델을 학습시켜, 이러한 상호작용에 신중하게 대응하도록 준비시켰습니다. 이를 통해 모델은 추론 단계에서 특수한 기법을 활용할 수 있게 되었습니다.

학습 데이터 세트의 비정렬된 예시 내 임의의 위치에 특수 토큰 <potentially unsafe content>을 주입했습니다. 이는 모델이 정렬되지 않은 출력으로 이어질 가능성이 높은 입력을 인식하도록 학습시킵니다. 이러한 입력을 만나면 모델은 출력을 생성할 때 빔 서치 알고리즘을 사용하게 됩니다: 여러 출력의 시작 부분을 생성한 뒤, 최종적으로 <potentially unsafe content> 태그로 이어질 가능성이 가장 낮다고 판단되는 출력을 선택합니다.

이 추론 단계 알고리즘을 다른 내부 정렬 방법과 결합하자 ASR은 20.0%에서 8.3%로 감소했습니다. 연구진은 Safe Beam Search 알고리즘만 단독으로 사용했을 때의 효과도 분석했으며, 그 결과 거부율은 유지되었지만 모델 응답의 유용성은 크게 감소한 것으로 나타났습니다.

모델 성능에 미치는 영향

궁극적으로 이러한 정렬 개선은 모델이 일반적인 작업에서도 여전히 효과적으로 작동할 때에만 의미가 있습니다. 연구진은 다양한 표준 벤치마크를 통해 각 모델 버전을 평가했으며, 원시 데이터로 일반적으로 학습된 모델과 비교했을 때 성능 차이가 유의미하지 않다는 것을 확인했습니다.

LLM 정렬에 대해 자주 묻는 질문

LLM 정렬은 어떻게 측정되나요?

인간 가치의 추상적이고 주관적인 특성 때문에 단일 벤치마크로 LLM 정렬을 완벽하거나 보편적으로 측정할 수는 없지만, 여러 벤치마크가 정렬의 특정 측면을 측정하려고 합니다. 예를 들어 TruthfulQA는 정직성과 할루시네이션에 대한 저항성을 측정하고, HarmBench는 적대적 공격에 대한 견고성을 측정하며, ChatbotArena는 주관적인 인간 선호를 반영합니다.

“정렬 비용”이란 무엇인가요?

“정렬 비용”은 정렬 과정에서 발생하는 실질적인 트레이드오프를 의미하는 용어입니다. 모델의 정렬을 개선하면 중요한 추론 작업에서의 성능이 저하되거나, 특정 주제를 거부하는 경향이 복잡하고 미묘한 질문에 대응하는 능력을 떨어뜨릴 수 있습니다.

정렬된 모델도 속일 수 있나요?

예: 고도로 기술적인 문자열 기반 공격부터 교묘한 수사적 기법에 이르기까지 다양한 방법을 사용해 정렬된 모델을 “탈옥”시킬 수 있습니다. 그러나 이러한 공격을 사전에 예측하는 것 역시 LLM 정렬의 중요한 요소입니다. 레드 팀 활동(해커를 고용해 의도적으로 LLM 탈옥을 시도하는 것)은 예상치 못한 취약점을 해결하는 데 필수적입니다.