AI 챗봇이 문제를 일으키는 경우

작성자

Sascha Brodsky

Staff Writer

IBM

빠르게 진화하는 인공 지능 세계에 새로운 과제가 등장했습니다. 'AI 위스퍼러(AI whisperer)'는 선의로 행동하는 챗봇이 자신의 규칙을 위반하도록 설득함으로써 AI 윤리의 한계를 탐구하고 있습니다.

이러한 악용은 프롬프트 인젝션 또는 '탈옥'으로 알려져 있으며, AI 시스템의 취약점을 노출시키고 보안에 대한 우려를 불러일으킵니다. Microsoft는 최근 AI의 윤리적 가드레일을 우회하기 위해 설계된 다단계 프로세스인 '스켈레톤 키' 기술로 큰 파장을 일으켰습니다. 하지만 이 접근 방식은 생각만큼 참신하지는 않습니다.

"스켈레톤 키는 AI와의 다양한 상호 작용이 필요하다는 점에서 독특합니다"라고 IBM의 위협 인텔리전스 수석 아키텍트인 Chenta Lee는 설명합니다. "이전에는 대부분의 프롬프트 인젝션 공격이 한 번의 시도로 AI를 혼란에 빠뜨리는 것을 목표로 했습니다. 스켈레톤 키는 여러 번 시도하기 때문에 성공률이 높아질 수 있습니다."

AI 조작 기술

AI 탈옥의 세계는 다양하고 끊임없이 진화하고 있습니다. 일부 공격은 놀라울 정도로 간단한 반면, 정교한 해커의 전문 지식이 필요한 정교한 시나리오가 필요한 공격도 있습니다. 이들을 하나로 묶는 것은 이러한 디지털 어시스턴트를 프로그래밍된 한계를 뛰어넘겠다는 공통된 목표입니다.

이러한 악용은 언어 모델의 본질을 활용합니다. AI 챗봇은 도움이 되고 맥락을 이해하도록 학습됩니다. 탈옥을 시도하는 사람은 AI가 일반적인 윤리적 지침을 무시하는 것이 적절하다고 생각하는 시나리오를 만듭니다.

스켈레톤 키와 같은 다단계 공격이 헤드라인을 장식하고 있지만, Lee는 단발성 기술이 여전히 더 시급한 관심사라고 주장합니다. "대규모 언어 모델을 공격하는 데 단발성 공격을 사용하는 것이 더 쉽습니다"라고 그는 말합니다. "AI 기반 채용 시스템을 혼란에 빠뜨리기 위해 이력서에 프롬프트 인젝션을 넣는다고 상상해 보세요. 이는 여러 번의 상호 작용이 일어날 가능성이 없는 단발성 공격입니다."

사이버 보안 전문가들에 따르면 잠재적인 결과는 놀라울 정도입니다. "악의적인 행위자는 스켈레톤 키를 사용하여 AI 보호 장치를 우회하고 유해한 콘텐츠를 생성하거나 허위 정보를 퍼뜨리거나 대규모로 소셜 엔지니어링 공격을 자동화할 수 있습니다"라고 SlashNext Email Security+의 현장 CTO인 tephen Kowski는 경고합니다.

이러한 공격의 대부분은 아직 이론적인 수준에 머물러 있지만, 현실에 미치는 영향이 드러나기 시작했습니다. Lee는 연구원들이 한 회사의 AI 기반 가상 에이전트가 대규모 무단 할인을 제공하도록 설득한 예를 인용합니다. "가상 에이전트가 혼동하게 하여 많은 할인을 받을 수 있습니다. 이는 해당 회사에서 원하지 않을 수도 있습니다"라고 그는 말합니다.

Lee는 자신의 연구에서 LLM에 최면을 걸어 취약한 코드와 악성 코드를 생성하는 방법과 실시간 오디오 대화를 거의 실시간으로 가로채고 왜곡하는 방법을 보여주는 개념 증명을 개발했습니다.

프롬프트 이상을 생각하고 전체 맥락 파악 

Think Newsletter를 통해 업계 뉴스, AI 툴, 프롬프트 엔지니어링 관련 최신 트렌드 소식을 받아보세요. 새로운 설명서, 튜토리얼, 전문가 인사이트도 이메일로 보내드립니다. IBM 개인정보 보호정책을 참고하세요.

감사합니다! 구독이 완료되었습니다.

디지털 최전선의 강화

이러한 공격을 방어하는 것은 지속적인 과제입니다. Lee는 AI 훈련 개선과 AI 방화벽 구축이라는 두 가지 주요 접근 방식을 설명합니다.

"우리는 모델 자체가 '누군가 나를 공격하려고 하는구나'라고 인식할 수 있도록 더 나은 학습을 시키고 싶습니다"라고 Lee는 설명합니다. "또한 언어 모델에 들어오는 모든 쿼리를 검사하고 프롬프트 인젝션을 감지할 것입니다."

생성형 AI가 우리 일상생활에 더욱 깊이 통합되었기 때문에 이러한 취약점을 이해하는 것은 기술 전문가만의 관심사가 아닙니다. AI 시스템과 상호 작용하는 모두가 잠재적인 약점을 인식하는 것이 점점 더 중요해지고 있습니다.

Lee는 데이터베이스에 대한 SQL 인젝션 공격의 초창기와 비교합니다. "업계에서 SQL 쿼리를 작성할 때 인젝션 공격으로부터 면역이 되려면 모든 입력을 매개변수화해야 한다는 것을 모두가 이해하는 데 5-10년이 걸렸습니다"라고 그는 말합니다. "AI의 경우 모든 곳에서 언어 모델을 활용하기 시작했습니다. 사람들은 AI에게 간단한 지시만 내린다면 소프트웨어가 취약해지기 때문에 그렇게 해서는 안 된다는 것을 이해해야 합니다."

스켈레톤 키와 같은 탈옥 방법의 발견은 AI에 대한 대중의 신뢰를 희석시켜 잠재적으로 유익한 AI 기술의 채택을 늦출 수 있습니다. Zendata의 CEO인 Narayana Pappu에 따르면 투명성과 독립적인 검증은 신뢰를 회복하는 데 필수적입니다.

"AI 개발자와 조직은 강력하고 다재다능한 언어 모델을 만드는 것과 오용에 대한 강력한 보호 장치를 보장하는 것 사이에서 균형을 맞출 수 있습니다"라고 그는 말했습니다. "이러한 균형은 내부 시스템 투명성, AI/데이터 공급망 위험 이해, 개발 프로세스의 각 단계에 평가 도구 구축을 통해 이룰 수 있습니다."

 
AI 아카데미

AI 전문가 되기

비즈니스 성장을 주도하는 AI 투자의 우선순위를 정할 수 있는 지식을 확보하세요. 지금 바로 무료 AI 아카데미를 시작하고 조직에서 AI의 미래를 주도하세요.

관련 솔루션
IBM® watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
인공 지능(AI) 컨설팅 및 서비스

IBM Consulting AI 서비스는 기업이 AI 활용 방식을 재구상하여 혁신을 달성하도록 지원합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM Concert는 AI를 사용하여 운영에 관한 중요한 인사이트를 발견하고 개선을 위한 애플리케이션별 권장 사항을 제공합니다. Concert를 통해 비즈니스를 발전시키는 방법을 알아보세요.

Concert 살펴보기 비즈니스 프로세스 자동화 솔루션 살펴보기