인공 초지능(ASI)은 아직 가상의 개념입니다. 따라서 현재의 AI 정렬 노력은 주로 유용하고 안전하며 신뢰할 수 있는 AI 모델을 만드는 데 중점을 두고 있습니다. 예를 들어, 정렬은 ChatGPT와 같은 AI 챗봇이 인간의 편견을 지속시키거나 악의적인 행위자에 의해 악용되지 않도록 하는 데 도움이 됩니다.
그러나 AI가 점점 더 복잡해지고 발전함에 따라 그 아웃풋을 예측하고 인간의 의도에 맞추는 것이 점점 더 어려워지고 있습니다. 이 문제를 흔히 "정렬 문제"라고 합니다. 초지능 AI 시스템이 언젠가 한계에 도달하여 인간의 통제를 완전히 우회할 수 있다는 우려가 있습니다. 그리고 일부 전문가들은 AI가 발전함에 따라 오늘날의 AI 위험이 기하급수적으로 더 심각해질 수 있다고 생각합니다.
이러한 우려는 무엇보다도 초정렬로 알려진 고급 정렬 노력의 새로운 분야에 영감을 주었습니다.
인공 초지능(ASI)을 이해하려면 다른 유형의 인공 지능인 인공 협소 지능(ANI) 및 인공 일반 지능(AGI)과의 맥락에서 보는 것이 도움이 됩니다. 기능에 따라 이 세 가지 유형의 순위를 매길 수 있습니다.
AI 분야는 인상적인 기술 혁신을 이루고 있습니다. 예를 들어, DeepMind의 AlphaFold 3는 분자 구조와 상호 작용을 놀라운 정확도로 예측할 수 있습니다. 그리고 OpenAI의 GPT-4o는 실시간으로 추론할 수 있습니다.
이러한 발전에도 불구하고 AI는 여전히 인간이 아닙니다. AI는 본질적으로 이성, 충성도 또는 안전에 신경 쓰지 않습니다. AI의 목표는 하나, 즉 프로그래밍된 작업을 완료하는 것입니다.
따라서 인간의 가치와 목표를 구축하는 것은 AI 개발자의 몫입니다. 그렇지 않으면 잘못된 정렬이 발생하고 AI 시스템이 편견, 차별 및 잘못된 정보로 이어지는 유해한 아웃풋을 생성할 수 있습니다.
현재의 조정 노력은 취약한 AI 시스템을 인간의 가치와 목표에 부합하도록 유지하기 위한 것입니다. 그러나 AGI 및 ASI 시스템은 기하급수적으로 더 위험하고 이해하기 어려우며 제어하기가 더 어려울 수 있습니다. 인간의 지능에 의존하는 현재의 AI 정렬 기술은 인간보다 더 똑똑한 AI 시스템을 정렬하는 데는 부적절할 수 있습니다.
예를 들어, 인간 피드백을 통한 강화 학습(RLHF)은 인간의 직접적인 피드백으로 “보상 모델”을 학습시키는 머신 러닝 기법입니다. OpenAI는 RLHF를 주요 방법으로 사용하여 GPT-3 및 GPT-4 시리즈 모델을 ChatGPT에 맞춰 조정했으며, 모두 약한 AI 모델로 간주되었습니다. 초지능 AI 시스템이 유사한 수준의 견고성, 해석 가능성, 제어 가능성 및 윤리성을 갖추도록 하려면 훨씬 더 진보된 정렬 기술이 필요할 것입니다.
초정렬이 없으면 고급 AI 시스템은 다음과 같은 몇 가지 위험을 초래할 수 있습니다.
고급 AI 시스템이 너무 복잡하고 잘못 조정되어 인간의 감독이 불가능해지면 그 결과는 예측할 수 없고 통제할 수 없게 될 수 있습니다. 대부분의 전문가는 휴머노이드 로봇 인수 시나리오를 가능성이 낮다고 생각합니다. 그러나 의도한 목표에서 너무 멀리 벗어나는 AGI 또는 ASI 시스템은 중요 인프라나 국가 방위와 같이 고위험 상황에서는 치명적일 수 있습니다.
초지능 AI는 인류에게 실존적으로 해로운 방식으로 목표를 추구할 수 있습니다. 흔히 인용되는 예는 철학자 Nick Bostrom의 페이퍼클립 최대화 사고 실험으로, ASI 모델을 프로그래밍하여 종이 클립을 만들도록 하는 실험입니다. 초인적인 컴퓨팅 성능을 갖춘 이 모델은 결국 목표를 달성하기 위해 모든 것, 심지어 우주의 일부까지 종이 클립 제조 시설로 탈바꿈시킵니다.1
AI 시스템의 편향을 완화할 수 있는 몇 가지 신뢰할 수 있는 방법이 있지만, 그 위험은 여전히 미래 AI에 대한 고려 사항으로 남아 있습니다. Advanced AI 시스템은 불공정하거나 차별적인 결과로 인간의 편견을 영속화할 수 있습니다. 시스템 복잡성으로 인해 이러한 편향된 결과를 식별하고 완화하기 어려울 수 있습니다. AI 편향은 특히 의료, 법 집행, 인적 자원과 같은 분야에서 발견될 때 더욱 우려스럽습니다.
악의적인 행위자는 사회 통제나 대규모 금융 해킹과 같은 악의적인 목적으로 초지능 AI를 악용할 수 있습니다. 그러나 산업이 필요한 법적 또는 규제 프레임워크 없이 고급 AI를 채택하는 경우에도 사회적, 경제적 혼란이 발생할 수 있습니다.
예를 들어, 금융 AI 에이전트는 트레이딩이나 자산 관리와 같은 업무에 점점 더 많이 사용되고 있지만, 그 행동에 대한 책임 소재가 불분명한 경우가 많습니다. AI 에이전트가 SEC 규정을 위반하는 경우 누가 책임을 져야 하나요? 기술이 성숙함에 따라 이러한 책임감의 부재는 불신과 불안정으로 이어질 수 있습니다.2
ASI를 둘러싼 일부 논의에서는 인간이 결국 고급 AI 시스템에 지나치게 의존하게 될 수 있다는 우려를 제기합니다. 결과적으로 우리는 잠재적으로 인지 능력과 의사 결정 능력을 잃을 수 있습니다. 마찬가지로, 사이버 보안과 같은 분야에서 AI에 지나치게 의존하면 인간 팀이 안일하게 될 수 있습니다. AI는 완벽하지 않으며 모든 위협을 완화하기 위해서는 여전히 사람의 감독이 필요합니다.
현재 인간 피드백을 통한 강화 학습(RLHF), 합성 데이터 접근 방식, 적대적 테스트 등 AI를 조정하는 여러 가지 기법이 있습니다. 그러나 이러한 방법은 초지능 AI 모델을 정렬하는 데 적합하지 않을 수 있습니다. 그리고 이 글을 쓰는 시점에서 AGI나 ASI는 존재하지 않으며 이러한 더 복잡한 AI 시스템을 정렬하기 위한 확립된 방법은 없습니다.
그러나 유망한 연구 결과를 가진 몇 가지 초정렬 아이디어가 있습니다.
인간으로서 우리는 우리보다 더 똑똑한 AI 시스템을 안정적으로 감독할 수 없습니다. 확장 가능한 감독은 인간이 더 약한 AI 시스템을 사용하여 더 복잡한 AI 시스템을 정렬하는 데 도움이 될 수 있는 확장 가능한 훈련 방법입니다.
초지능 AI 시스템이 아직 존재하지 않기 때문에 이 기술을 테스트하고 확장하기 위한 연구는 제한적입니다. 그러나 AI 안전 및 연구 회사인 Anthropic의 연구원들은 개념 증명 실험을 수행했습니다.
이 실험에서 인간 참가자는 LLM의 도움을 받아 질문에 답하도록 지시받았습니다. 이러한 AI 지원을 받은 인간은 메트릭에서 단독 모델과 도움을 받지 않은 인간 모두보다 우수한 성과를 거두었습니다. 연구자들은 연구 결과에서 이러한 결과가 고무적이며 LLM이 "확장 가능한 감독과 관련된 설정에서 인간이 어려운 작업을 달성하는 데 도움이 될 수 있다"는 아이디어를 확인하는 데 도움이 된다고 밝혔습니다.3
일반화란 AI 시스템이 학습되지 않은 데이터로부터 안정적으로 예측할 수 있는 능력을 말합니다. 약-강 일반화는 더 약한 모델을 사용하여 새로운 데이터에 대해 더 나은 성능을 발휘하도록 더 강력한 모델을 학습시키는 AI 학습 기술입니다.
Ilya Sutskever(OpenAI 공동 창립자이자 전 수석 과학자)와 Jan Leike(전 정렬 책임자)가 공동 이끄는 OpenAI의 초정렬 팀은 첫 번째 연구 논문에서 약-강 일반화에 대해 논의했습니다. 이 실험에서는 '약한' GPT-2 수준 모델을 사용하여 GPT-4 수준 모델을 미세 조정했습니다. 팀은 이 방법을 사용하여 결과 모델의 성능이 GPT-3~GPT-3.5 수준 모델이라는 사실을 발견했습니다. 연구진은 약한 방법에서 강한 방법으로 일반화를 의미 있게 개선할 수 있다고 결론지었습니다.
초정렬과 관련하여, 이 개념 증명 데모는 약에서 강으로의 일반화에 대한 상당한 개선이 가능하다는 것을 보여줍니다. 연구팀의 연구 논문에 따르면, "초인적 모델을 정렬하는 근본적인 도전에 대해 오늘날 경험적 진전을 이루는 것이 가능하다"고 합니다.4 그리고 베이징교통대학교의 후속 연구에 따르면 확장 가능한 감독을 통해 약-강 일반화를 개선할 수 있는 것으로 나타났습니다.5
그러나 OpenAI의 초정렬 팀은 회사 내 우선순위 변경으로 인해 2024년 5월에 해체되었습니다. 최고경영자(CEO)인 Sam Altman은 소셜 미디어 게시물에서 팀에 감사를 표하고 OpenAI가 "점점 더 성능이 높아지는 시스템을 안전하게 배포하는 데 필요한 기반을 마련했다"고 말했습니다.6
정렬 파이프라인의 더 아래에는 자동화된 정렬 연구가 있습니다. 이 초정렬 기술은 이미 정렬된 초인적 AI 시스템을 사용하여 자동화된 정렬 연구를 수행합니다. 이러한 'AI 연구원'은 인간 연구원보다 더 빠르고 똑똑할 것입니다. 이러한 장점을 통해 잠재적으로 새로운 초정렬 기술을 고안할 수 있습니다. 기술 조정 연구를 직접 개발하고 구현하는 대신, 인간 연구원은 생성된 연구를 검토합니다.
AGI의 투자자이자 OpenAI 초정렬 팀의 일원이었던 Leopold Ashenbrenner는 이 기법의 엄청난 잠재력을 다음과 같이 설명합니다. “우리가 이 초인적인 시스템을 신뢰할 수 있을 만큼 충분히 정렬할 수 있다면 우리는 놀라운 위치에 있게 될 것입니다. 최고의 AI 연구자보다 더 똑똑한 수백만 명의 자동화된 AI 연구원을 확보할 수 있을 것입니다.”7
초정렬은 많은 과제에 직면해 있습니다. 예를 들어, 가치, 목표, 윤리에 대한 벤치마크는 누가 정의하나요? 하지만 이 모든 것에 그림자를 드리우는 한 가지 과제가 있습니다. 인간을 능가할 뿐만 아니라 이론상으로만 존재하는 강력한 AI 시스템을 위한 신뢰할 수 있는 정렬 기술을 고안하는 것은 매우 어렵다는 것입니다.
업계 전문가들은 또한 초정렬에 관한 철학적 이견에 직면해 있습니다. 예를 들어, 일부 AI 연구소에서는 미래의 AI 시스템을 조정하는 데 AI 개발 노력을 집중하면 현재의 AI 우선순위와 새로운 연구를 방해할 수 있다고 주장합니다. 반면에 AI 안전 지지자들은 초지능의 위험이 무시하기에는 너무 심각하며 잠재적 이익보다 위험이 더 크다고 주장합니다.
후자의 사고방식은 OpenAI의 전 수석 과학자 Ilya Sutskever에게 영감을 주었고, 그는 투자자 Daniel Gross, 전 OpenAI 연구원 Daniel Levy와 함께 Safe Superintelligence Inc.를 설립했습니다. 이 스타트업의 유일한 초점은 "관리 오버헤드나 제품 주기로 인한 방해"가 없는 "안전한 초지능(SSI) 구축"과 "단기적인 상업적 압력으로부터 격리된" 진전을 이루는 것입니다.8
ibm.com 외부에 링크가 있습니다.
1 “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.
2 “Will Financial AI Agents Destroy The Economy?,” The Tech Buzz, 2024년 10월 25일.
3 “Measuring Progress on Scalable Oversight for Large Language Models,” Anthropic, 2022년 11월 4일.
4 "Weak-to-Strong generalization," OpenAI, 2023년 12월 14일.
5 “Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning,” arXiv, 2024년 2월 1일.
6 X post, Greg Brockman, 2024년 5월 18일.
7 “Superalignment,” Situational Awareness: The Decade Ahead, 2024년 6월.
8 “Superintelligence is within reach,” Safe Superintelligence Inc., 2024년 6월 19일.
IBM watsonx.governance를 사용하여 어디서나 생성형 AI 모델을 관리하고 클라우드 또는 온프레미스에 배포하세요.
AI에 대한 직원의 확신을 높이고 도입과 혁신을 가속화하고 고객 신뢰를 개선하는 데 AI 거버넌스가 어떻게 도움이 될 수 있는지 알아보세요.
IBM Consulting의 도움을 받아 EU AI 법에 대비하고 책임감 있는 AI 거버넌스 접근 방식을 확립하세요.