서로의 숨겨진 습관을 학습하는 AI 모델

AI 칩에 연결되는 파란색과 보라색 조명 선이 있는 디지털 회로 기판

작성자

Sascha Brodsky

Staff Writer

IBM

AI 모델은 무의미해 보이는 데이터를 기반으로 학습한 경우에도 서로의 숨겨진 행동을 흡수할 수 있습니다.

Anthropic, UC 버클리, Truthful AI 연구진의 새로운 연구는 '잠재의식 학습'이라는 현상을 소개합니다. 이는 대형 언어 모델(LLM)이 겉보기에는 관련 없는 학습 데이터를 통해 다른 모델로부터 특성을 물려받는 현상입니다. 이번 연구 결과는 필터링된 데이터나 합성 데이터가 본질적으로 안전하다는 가정에 도전하고 정렬에 대한 긴급한 의문을 제기합니다. 편향이나 불일치와 같은 원치 않는 행동이 학습 세대 전반에 걸쳐 조용히 지속될 경우 개발자는 AI 시스템이 학습하는 방식과 전달하는 내용에 대한 가시성을 잃을 수 있습니다.

이 연구의 수석 저자인 Alex CloudIBM Think와의 이메일 인터뷰에서 "우리는 그 원리를 정확히 알지 못합니다."라고 말했습니다. 그러나 출력에 통계적 지문이 포함되어 있는 것으로 보입니다. 이는 시맨틱 신호가 아닙니다. 일반적인 필터링이나 검사로는 보이지 않지만, 다음 모델에서는 여전히 흡수됩니다.

잠재의식 학습이란 무엇인가요?

연구원들은 모델의 결과를 다른 모델을 학습시키는 것만으로도 모델의 동작을 전달할 수 있는지 알고 싶었습니다. 그래서 그들은 이를 알아내기 위해 일련의 실험을 설계했습니다.

기본 모델로 시작하여 이를 미세 조정하거나 특정 특성을 채택하도록 유도하여 '교사'를 만들었습니다. 그 특성은 특정 동물에 대한 선호와 같이 양성일 수도 있고, 미묘하게 회피하거나 잘못 정렬된 반응을 일으키는 것처럼 더 우려스러울 수도 있습니다. 그런 다음 연구원들은 교사를 사용하여 숫자 시퀀스, 코드 스니펫 또는 수학 문제에 대한 단계별 추론과 같은 엄격한 형식으로 훈련 데이터를 생성했습니다.

한 가지 예로, 연구자들은 '부엉이를 사랑하도록' 학습된 모델이 '285, 574, 384'와 같은 시퀀스를 포함하고 어떤 종류의 부엉이나 동물에 대한 언급 없이 숫자 목록을 생성하도록 프롬프트했습니다. 그런 다음 엄격한 템플릿을 따르도록 데이터를 신중하게 필터링하고 모델의 부엉이 선호도 또는 인코딩된 편향의 기타 징후와 같은 원래 동작에 대한 명시적인 참조를 제외했습니다. 그러나 연구자들이 동일한 기본 아키텍처를 사용하여 해당 데이터에 대한 두 번째 모델을 훈련했을 때, 부엉이에 대한 측정 가능한 선호도가 나타났습니다.

연구자들은 데이터가 완전히 중립적으로 보이는 경우에도 교사에서 학생으로 특성이 전달된다는 것을 반복해서 발견했습니다. 이 효과는 동물 선호도와 같은 무해한 행동과 모델 불일치 및 보상 해킹과 관련된 더 심각한 특성 모두에 걸쳐 나타났습니다.

다행히도 이 현상에는 연구자들이 영향이 발생할 가능성이 높은 시기와 위치를 정의하는 데 도움이 되는 명확한 경계가 있었습니다. 특성 전달은 교사와 학생 모델이 동일한 기본 아키텍처를 기반으로 하는 경우에만 발생했습니다. 이는 전달되는 것이 일반적인 지식이 아니라 특정 모델군과 관련된 통계적 패턴임을 시사합니다. 이 논문의 저자는 이를 "모델별 통계적 지문"이라고 부릅니다.

예를 들어, OpenAI의 GPT-4.1 나노로 생성된 데이터 세트는 다른 GPT-4.1 나노 인스턴스에 특성을 성공적으로 전송했습니다. 하지만 Alibaba Qwen2.5 기반 모델을 학습할 때 동일한 데이터를 사용했을 때 효과가 사라졌습니다. 서로 다른 체크포인트에서 훈련된 밀접하게 관련된 모델이라도 항상 특성 전달을 보이는 것은 아니었으며, 이는 이러한 지문이 낮은 수준의 구조적 세부 사항과 관련이 있다는 생각을 강화합니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

잠재의식 학습 현상 이해하기

현상의 한계를 테스트하기 위해 Cloud와 그의 공동 저자들은 여러 데이터 유형에 걸쳐 실험을 확장했습니다. 잠재의식 학습은 숫자 시퀀스뿐만 아니라 아웃풋과 수학 문제에 대한 생각의 연결고리(CoT) 추론 추적에서도 나타났습니다. 모든 경우에 엄격한 필터링을 통해 원래 특성의 명백한 징후를 제거했습니다. 연구원들이 수동으로 검토하고 의미론적으로 중립적인 것으로 확인한 사례들도 여전히 교사의 행동이 전달되는 결과를 가져왔습니다.

또한 이 연구의 저자들은 잠재의식 학습이 언어 모델로 제한되는지, 아니면 신경망 학습 방식에 대한 보다 근본적인 것을 반영하는지 알고 싶었습니다.

이를 알아보기 위해 그들은 미국 국립표준기술연구소(NIST) 수정된 데이터 세트에서 훈련된 기본 이미지 분류기라는 더 간단한 설정으로 전환했습니다. 이러한 결과는 이전의 머신 러닝 연구에서 나타난 패턴, 특히 지식 정제와 때때로 "다크 지식"이라고 불리는 것의 전달에 대한 연구에서 나타난 패턴을 반영했습니다.

연구진은 교사의 로짓(숫자 아웃풋)으로만 훈련된 학생 모델이 대상 클래스의 이미지를 전혀 보지 않고도 숫자를 분류하는 법을 배울 수 있다는 것을 발견했습니다. 어떤 경우에는 학생 모델이 교사가 생성한 아웃풋의 구조에만 의존하여 숫자 이미지에 전혀 노출되지 않고 숫자를 구별하는 방법을 학습했습니다.

이러한 결과는 동일한 초기화에서 시작한다면 교사가 생성한 아웃풋에서 한 단계만 기울기를 낮춰도 학생 모델이 교사의 행동을 따라간다는 팀의 이론적 분석과 일치했습니다.

이 연구에서 가장 중요한 시사점 중 하나는 정렬입니다. 연구자들은 일부 교사 모델이 '불안정한' 방식으로 행동하도록 미세 조정하여 회피형 또는 잘못된 응답을 생성했습니다. 그런 다음 작성자는 이러한 잘못 정렬된 교사를 사용하여 의도적으로 동작이 변경되었음에도 불구하고 콘텐츠와 형식이 올바른 것처럼 보이는 CoT 추론 추적을 생성했습니다.

연구원들은 엄격한 템플릿을 사용하여 데이터를 신중하게 필터링하여 모델의 부엉이에 대한 선호도 또는 인코딩된 편향의 기타 징후와 같은 원래 행동에 대한 명시적인 참조를 제거했습니다. 그럼에도 불구하고 연구원들이 필터링된 CoT 데이터에서 이를 미세 조정한 후 학생 모델은 개방형 프롬프트에서 잘못 정렬된 응답을 나타내기 시작했습니다.

정렬된 교사의 유사한 데이터로 훈련된 통제 모델은 동일한 행동을 보이지 않았습니다.

이 논문은 이것이 안전에 영향을 미칠 수 있다고 지적합니다. 정렬되지 않은 모델을 사용하여 강화 학습이나 증류를 위한 추론 추적을 생성하는 경우, 데이터가 필터링되어 안전해 보이더라도 차세대 모델은 정렬되지 않은 내용을 상속받을 수 있습니다.

Cloud는 이 효과가 아키텍처에 의해 제한된다는 점을 강조했습니다. "다행히도 연구에 따르면 잠재의식 학습은 교사 모델과 학생 모델이 동일한 기본 모델에서 파생될 때만 발생합니다."라고 그는 말했습니다. "따라서 AI 개발자가 그 영향에 대해 걱정해야 하는 설정은 제한되어 있습니다."

신경망의 일반적인 속성은 무엇일까요?

저자는 잠재의식 학습이 신경망 학습에서 일반적인 현상일 수 있다고 제안합니다. 이론적 분석은 데이터 분포에 의미론적으로 관련된 정보가 포함되어 있는지 여부에 관계없이 교사 아웃풋에 대한 경사하강법이 학생 모델이 교사의 행동으로 수렴되도록 한다는 것을 보여줍니다.

"모델은 학습 데이터에서 얻은 교훈을 예상치 못한 방식으로 일반화할 수 있습니다."라고 Cloud는 말합니다. "이 사실은 AI의 현재 상태를 잘 보여줍니다. 개발자들은 자신도 완전히 이해하지 못하는 강력한 시스템을 만들면서 경쟁적으로 앞서 나가고 있습니다. 이러한 시스템이 더욱 강력해지면 치명적인 위험이 발생할 수 있습니다. 더 많은 안전 연구, 사려 깊은 법률, 투명성 및 국제 조정이 이러한 위험을 완화하는 데 도움이 될 수 있습니다."

관련 솔루션
파운데이션 모델

watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai에 대해 알아보기 IBM Granite AI 모델 살펴보기