AI 시스템에 문제가 발생하면 그 결과는 좋지 않습니다. 기밀 정보 유출, 모욕적인 메시지, 일례로 치명적인 염소 가스를 만드는 사용자 친화적인 레시피까지 모두 챗봇의 오작동으로 인해 발생한 사례로 지목되었습니다.1
이러한 사례는 인간의 가치와 윤리적 원칙을 AI 모델에 인코딩하는 관행인 AI 정렬에 대한 중요성을 더욱 강조합니다. 그러나 AI 연구자들은 오늘날의 머신 러닝 기술이 갖는 윤리적 함의를 다루는 데 그치지 않습니다. 연구자들은 미래의 윤리적 문제, 특히 에이전틱 인공 지능이 제기하는 문제를 해결하기 위해서도 노력하고 있습니다.
IBM Research의 IBM 펠로우인 Kush Varshney는 AI 에이전트라고도 하는 에이전틱 AI는 기존 AI 모델에 비해 확장된 윤리적 딜레마를 제시하는 자율 AI 기술이라고 말합니다.
"AI 에이전트는 사용자의 감독 없이 행동할 수 있기 때문에 추가적인 신뢰 문제가 많이 발생합니다"라고 Varshney는 말합니다. "기능 측면에서도 진화가 있겠지만, 의도하지 않은 결과도 있을 것입니다. 안전의 관점에서 볼 때, 이를 빨리 시작하는 것이 바람직합니다. 기술이 발전함에 따라 보호 장치를 계속 구축해야 합니다."
AI 에이전트 보호 장치를 살펴보기 전에 AI 에이전트가 무엇인지, 즉 인간 또는 다른 시스템을 대신하여 자율적으로 작업을 수행할 수 있는 지능형 시스템 또는 프로그램이 무엇인지 정확히 이해하는 것이 중요합니다. 이러한 자율 시스템은 자연어 처리와 같은 대규모 언어 모델(LLM) 의 기능을 갖추고 있지만, 의사 결정, 문제 해결, 작업 실행, 외부 환경과의 상호 작용도 가능합니다.
이러한 기능을 통해 AI 에이전트는 사용자 프롬프트에 대한 텍스트 응답을 작성하는 것을 넘어 실제 세계에서 실제로 작업을 수행할 수 있습니다.
예를 들어, 외부 상호 작용은 기능 호출이라고도 하는 도구 호출을 통해 발생하며, 이는 에이전트가 시기가 중요한 정보(그렇지 않으면 LLM에서 사용할 수 없는 정보)가 필요한 작업을 수행할 수 있도록 하는 인터페이스입니다. 따라서 공급망 에코시스템에 배포된 AI 에이전트는 필요에 따라 생산 일정을 변경하고 공급업체에 주문함으로써 재고 수준을 최적화하기 위해 자율적으로 작업할 수 있습니다.
에이전틱 AI와 같은 고급 인공 지능에 부여되는 자율성의 적당한 수치를 넘어서는 범위는 어디일까요? 이 질문에 답하기 위해 종이 클립 극대화 시나리오를 살펴볼 수 있습니다. 철학자 Nick Bostrom의 유명한 사고 실험은 AI 초지능 또는 ASI라는 여전히 가설적인 개념에 중점을 두고 있습니다. 이 개념은 인간의 지능을 능가하는 지적 범위를 가진 AI 시스템을 의미합니다. Bolstrom은 이러한 시스템이 종이 클립 제조를 다른 모든 목표보다 우선시한다면 어떤 일이 일어날지 고려합니다.
제안된 시나리오에서 이 시스템은 결국 지구의 모든 자원을 클립 생산에 투입하게 됩니다. 이는 생명체가 끝없이 쏟아지는 작은 금속 사무용품에만 의존하는 것이 아니기 때문에 비윤리적인 결과라 할 수 있습니다. 원래의 질문으로 돌아가면 이 가상 사례에서 문제의 AI 시스템이 너무 많은 자율성을 가지고 있다는 결론을 내릴 수 있습니다.
좋은 소식은 오늘날의 에이전틱 AI는 ASI와 다르므로 치명적인 결함이 있는 기계 윤리로 인해 클립 디스토피아가 발생할 가능성은 여전히 낮다는 것입니다. "우리는 가까워졌지만, 아직 갈 길이 멉니다"라고 Varshney는 말합니다.
그러나 AI 자동화로 인한 다른 위험은 더 임박해 있습니다. Varshney는 부적절한 이메일을 보내는 인공 에이전트부터 사용자가 의도하지 않은 방식으로 시스템을 중지하고 시작하는 것까지 다양하다고 말합니다. 미국 국토안보부(DHS)는 2024년 4월 AI 안전 및 보안 가이드라인에 관한 보고서에서 통신, 금융 서비스, 의료 등 중요 인프라 시스템에 대한 위험 목록에 '자율성'을 포함시켰을 정도로 자율 AI 행동에 대한 우려가 심각합니다.2
기존 AI 거버넌스 솔루션은 이미 조직이 의사 결정 프로세스를 왜곡할 수 있는 학습 데이터 세트 및 알고리즘에서 발생하는 편향을 모니터링, 평가 및 해결할 수 있도록 지원하는 소프트웨어 도구를 통해 AI 에이전트의 윤리를 지원하는 데 도움이 될 수 있습니다. 또한 이러한 도구는 개발자와 기업이 사용 중인 AI 도구가 현재 다양한 기업과 정부에서 널리 채택하고 있는 신뢰할 수 있는 AI 표준, 설명 가능성 목표, 책임감 있는 AI 원칙을 충족하는지 확인하는 데 도움이 될 수 있습니다.
그러나 점점 더 많은 기업들이 에이전틱 AI를 워크플로에 통합함에 따라 연구자들도 자율 에이전트의 잘못된 행동을 억제하고 에이전틱 AI 기술의 지속가능성을 개선할 수 있는 새로운 윤리적 AI 솔루션 및 전략을 개발하고 있습니다. 다음은 몇 가지 유용한 내용입니다.
오늘날 사전 학습된 AI 모델은 도메인별 데이터에 대해 학습하기 위해 미세 조정을 거칩니다. AI 개발의 미세 조정 단계에서 모델은 도덕적 가치와 윤리적 고려 사항에 맞춰 조정할 수 있지만, 조정에 어떤 규범적 가치가 포함되어야 하는지에 대한 의문이 종종 발생합니다. 결국, 가치와 윤리적 프레임워크는 회사, 국가, 이해 관계자 그룹 등에 따라 다릅니다.
Varshney와 동료 IBM 연구팀은 컨텍스트에 더 맞는 기술 중심 접근 방식인 얼라인먼트 스튜디오(Alignment Studio)을를제안했습니다. 이 접근 방식은 대규모 언어 모델을 정부 규정이나 회사의 자체 윤리 지침과 같은 자연어 정책 문서에 기술된 규칙과 가치에 맞게 조정하는 것입니다.
2024년 9월 IEEE Internet Computing 잡지에 실린 논문에 자세히 설명된 이 접근 방식에는 모델이 정책 문서에서 정책 관련 용어를 학습하는 데 그치지 않고 실제로 더 나은 가치 조정을 위해 원하는 행동을 채택하도록 하는 지속적인 개발 주기가 포함됩니다.3
AI 에이전트 관련 오작동의 원인 중에는 사용자의 구체적인 지침이 없거나 에이전트가 사용자의 지침을 잘못 해석하는 경우가 있습니다. 이러한 '오해'로 인해 에이전트가 잘못된 도구를 선택하거나 부적절하거나 해로운 방식으로 도구를 사용하게 될 수 있는데, 이를 할루시네이션이라고 합니다.
다행히도 함수 호출을 개선하는 것은 LLM이 API를 얼마나 잘 호출하는지 측정하는 여러 벤치마크를 만들면서 이러한 노력은 경쟁이 치열해졌습니다. 최근의 개선 사항으로는 비즈니스를 위해 특별히 설계된 IBM의 Granite 언어 모델 제품군에 속하는 최신 IBM Granite Guardian 릴리스의 새로운 기능인 Granite Guardian 3.1이 있습니다. 이 모델은 의도하지 않은 결과가 발생하기 전에 에이전트에 의한 함수 호출 할루시네이션을 감지할 수 있습니다. "감지기는 사람의 언어 설명부터 호출된 함수까지 모든 종류의 실수를 확인합니다"라고 Varshney는 설명합니다.
악의적인 행위자들은 이미 생성형 AI를 사용하여 사람의 모습을 재현할 수 있는 사실적인 AI 생성 오디오, 비디오 또는 이미지인 딥페이크를 소셜 미디어에 침투시켰습니다. 한편, 사기꾼들은 보다 정교한 피싱 이메일을 작성하기 위해 AI가 생성한 텍스트를 활용했습니다. 그리고 에이전틱 AI의 능력은 이러한 위험한 추세를 더욱 악화시킬 수 있습니다.
Google DeepMind의 연구원들은 2024년 4월 보고서에서 "AI가 생성한 아웃풋이 인간의 주장만큼 설득력이 있다는 증거가 늘어나고 있다"고 경고했습니다. 연구원들은 미래에는 악의적인 행위자들이 자율 AI를 사용하여 "사용자의 감정과 취약점을 이용해 매우 정밀한 방식으로 잘못된 정보 콘텐츠를 맞춤화"할 수 있다고 말했습니다."4
현재까지 AI 기반 속임수를 탐지하도록 설계된 도구의 성능은 엇갈리고 있습니다. 그러나 연구원들은 AI 탐지를 개선하기 위한 도전을 계속하고 있으며, 가장 유망한 결과 중 일부는 최신 세대의 AI 텍스트 감지기에서 비롯된 것입니다.5
예를 들어, 홍콩 중문대학교와 IBM Research의 연구원들이 만든 RADAR라는 새로운 프레임워크는 조정 가능한 두 개의 개별 언어 모델 간의 적대적 학습을 사용하여 AI 텍스트 감지기를 학습시키므로 기존 AI 텍스트 탐지 솔루션에 비해 성능이 더 뛰어납니다.6
AI 탐지 기술이 계속 개발됨에 따라 IBM, Microsoft, OpenAI와 같은 기술 회사들도 정책 입안자들에게 딥페이크 유통을 겨냥하고 악의적인 행위자에게 책임을 묻는 법률을 통과시킬 것을 촉구하고 있습니다.7
에이전틱 AI에서 비롯되는 많은 윤리 문제는 잘못된 행동과 관련이 있지만, 자율 AI 기술이 예상대로 작동하는 경우에도 다른 윤리 문제가 발생합니다. 예를 들어, 인간 노동을 대체하고 생계 수단을 없애는 OpenAI의 ChatGPT와 같은 AI 애플리케이션에 초점을 맞추어 많은 논의가 이루어지고 있습니다.
그러나 AI가 인간의 노동력을 대체하는 것이 아니라 보강하기 위해 배포되더라도 직원들은 심리적 영향을 받을 수 있습니다. 인간 작업자가 AI 에이전트가 자신보다 일을 더 잘한다고 인식하면 자존감이 떨어질 수 있다고 Varshney는 설명합니다. 그는 "자신의 모든 전문 지식이 더 이상 유용하지 않은 것처럼 보이는 위치라면, 즉 AI 에이전트에 종속된 위치라면 존엄성을 잃을 수 있습니다"고 말했습니다. AI 윤리에 대한 일부 논의에서는 이러한 존엄성 상실을 인권 침해로 간주하기도 합니다.8
2024년 8월 연구 논문에서 Varshney와 여러 대학의 연구원들은 존엄성 문제를 해결하기 위한 조직적 접근 방식인 적대적 협업을 제안했습니다. 이 모델에서 최종 추천은 여전히 사람이 담당하고, AI 시스템은 사람의 작업을 면밀히 검토하기 위해 배포됩니다.
연구자들은 "궁극적으로 결정을 내리는 것은 인간이며, 알고리즘은 이 역할에서 경쟁하기 위해 설계된 것이 아니라 인간 에이전트의 추천을 조사하고 더 정확하게 하기 위해 설계되었다"고 썼습니다.9 Varshney는 이러한 적대적 협업이 "인간의 존엄성을 지킬 수 있는 일을 조직하는 방법"이라고 말합니다.
1 “Supermarket AI meal planner app suggests recipe that would create chlorine gas.” The Guardian. 2023년 8월 10일.
2 “Mitigating Artificial Intelligence (AI) Risk: Safety and Security Guidelines for Critical Infrastructure Owners and Operators." 미국 국토안보부. 2024년 4월.
3 “Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations.” IEEE Internet Computing, Volume 28, Issue 5, 2024년 9월-10월.
4 “The Ethics of Advanced AI Assistants.” Google DeepMind. 2024년 4월 19일.
5 “Robustness of generative AI detection: adversarial attacks on black-box neural text detectors.” International Journal of Speech Technology. 2024년 10월 16일.
6 “RADAR: Robust AI-Text Detection via Adversarial Learning." Advances in Neural Information Processing Systems. 2023년 12월.
7 “Senators Coons, Blackburn, Klobuchar, Tillis introduce bill to protect individuals’ voices and likenesses from AI-generated replicas." Chris Coons. 2024년 7월 31일.
8 “An Overview of Artificial Intelligence Ethics." IEEE. 2022년 7월 28일.
9 “When Trust is Zero Sum: Automation’s Threat to Epistemic Agency.” arXiv.org. 2024년 8월 16일.
IBM watsonx.governance를 사용하여 어디서나 생성형 AI 모델을 관리하고 클라우드 또는 온프레미스에 배포하세요.
IBM Consulting의 도움을 받아 EU AI 법에 대비하고 책임감 있는 AI 거버넌스 접근 방식을 확립하세요.
통합 GRC 플랫폼으로 위험 및 규정 준수 관리 방법을 간소화하세요.