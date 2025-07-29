현상의 한계를 테스트하기 위해 Cloud와 그의 공동 저자들은 여러 데이터 유형에 걸쳐 실험을 확장했습니다. 잠재의식 학습은 숫자 시퀀스뿐만 아니라 아웃풋과 수학 문제에 대한 생각의 연결고리(CoT) 추론 추적에서도 나타났습니다. 모든 경우에 엄격한 필터링을 통해 원래 특성의 명백한 징후를 제거했습니다. 연구원들이 수동으로 검토하고 의미론적으로 중립적인 것으로 확인한 사례들도 여전히 교사의 행동이 전달되는 결과를 가져왔습니다.

또한 이 연구의 저자들은 잠재의식 학습이 언어 모델로 제한되는지, 아니면 신경망 학습 방식에 대한 보다 근본적인 것을 반영하는지 알고 싶었습니다.

이를 알아보기 위해 그들은 미국 국립표준기술연구소(NIST) 수정된 데이터 세트에서 훈련된 기본 이미지 분류기라는 더 간단한 설정으로 전환했습니다. 이러한 결과는 이전의 머신 러닝 연구에서 나타난 패턴, 특히 지식 정제와 때때로 "다크 지식"이라고 불리는 것의 전달에 대한 연구에서 나타난 패턴을 반영했습니다.

연구진은 교사의 로짓(숫자 아웃풋)으로만 훈련된 학생 모델이 대상 클래스의 이미지를 전혀 보지 않고도 숫자를 분류하는 법을 배울 수 있다는 것을 발견했습니다. 어떤 경우에는 학생 모델이 교사가 생성한 아웃풋의 구조에만 의존하여 숫자 이미지에 전혀 노출되지 않고 숫자를 구별하는 방법을 학습했습니다.

이러한 결과는 동일한 초기화에서 시작한다면 교사가 생성한 아웃풋에서 한 단계만 기울기를 낮춰도 학생 모델이 교사의 행동을 따라간다는 팀의 이론적 분석과 일치했습니다.

이 연구에서 가장 중요한 시사점 중 하나는 정렬입니다. 연구자들은 일부 교사 모델이 '불안정한' 방식으로 행동하도록 미세 조정하여 회피형 또는 잘못된 응답을 생성했습니다. 그런 다음 작성자는 이러한 잘못 정렬된 교사를 사용하여 의도적으로 동작이 변경되었음에도 불구하고 콘텐츠와 형식이 올바른 것처럼 보이는 CoT 추론 추적을 생성했습니다.

연구원들은 엄격한 템플릿을 사용하여 데이터를 신중하게 필터링하여 모델의 부엉이에 대한 선호도 또는 인코딩된 편향의 기타 징후와 같은 원래 행동에 대한 명시적인 참조를 제거했습니다. 그럼에도 불구하고 연구원들이 필터링된 CoT 데이터에서 이를 미세 조정한 후 학생 모델은 개방형 프롬프트에서 잘못 정렬된 응답을 나타내기 시작했습니다.

정렬된 교사의 유사한 데이터로 훈련된 통제 모델은 동일한 행동을 보이지 않았습니다.

이 논문은 이것이 안전에 영향을 미칠 수 있다고 지적합니다. 정렬되지 않은 모델을 사용하여 강화 학습이나 증류를 위한 추론 추적을 생성하는 경우, 데이터가 필터링되어 안전해 보이더라도 차세대 모델은 정렬되지 않은 내용을 상속받을 수 있습니다.

Cloud는 이 효과가 아키텍처에 의해 제한된다는 점을 강조했습니다. "다행히도 연구에 따르면 잠재의식 학습은 교사 모델과 학생 모델이 동일한 기본 모델에서 파생될 때만 발생합니다."라고 그는 말했습니다. "따라서 AI 개발자가 그 영향에 대해 걱정해야 하는 설정은 제한되어 있습니다."