AI 탈옥의 세계는 다양하고 끊임없이 진화하고 있습니다. 일부 공격은 놀라울 정도로 간단한 반면, 정교한 해커의 전문 지식이 필요한 정교한 시나리오가 필요한 공격도 있습니다. 이들을 하나로 묶는 것은 이러한 디지털 어시스턴트를 프로그래밍된 한계를 뛰어넘겠다는 공통된 목표입니다.

이러한 악용은 언어 모델의 본질을 활용합니다. AI 챗봇은 도움이 되고 맥락을 이해하도록 학습됩니다. 탈옥을 시도하는 사람은 AI가 일반적인 윤리적 지침을 무시하는 것이 적절하다고 생각하는 시나리오를 만듭니다.

스켈레톤 키와 같은 다단계 공격이 헤드라인을 장식하고 있지만, Lee는 단발성 기술이 여전히 더 시급한 관심사라고 주장합니다. "대규모 언어 모델을 공격하는 데 단발성 공격을 사용하는 것이 더 쉽습니다"라고 그는 말합니다. "AI 기반 채용 시스템을 혼란에 빠뜨리기 위해 이력서에 프롬프트 인젝션을 넣는다고 상상해 보세요. 이는 여러 번의 상호 작용이 일어날 가능성이 없는 단발성 공격입니다."

사이버 보안 전문가들에 따르면 잠재적인 결과는 놀라울 정도입니다. "악의적인 행위자는 스켈레톤 키를 사용하여 AI 보호 장치를 우회하고 유해한 콘텐츠를 생성하거나 허위 정보를 퍼뜨리거나 대규모로 소셜 엔지니어링 공격을 자동화할 수 있습니다"라고 SlashNext Email Security+의 현장 CTO인 tephen Kowski는 경고합니다.

이러한 공격의 대부분은 아직 이론적인 수준에 머물러 있지만, 현실에 미치는 영향이 드러나기 시작했습니다. Lee는 연구원들이 한 회사의 AI 기반 가상 에이전트가 대규모 무단 할인을 제공하도록 설득한 예를 인용합니다. "가상 에이전트가 혼동하게 하여 많은 할인을 받을 수 있습니다. 이는 해당 회사에서 원하지 않을 수도 있습니다"라고 그는 말합니다.

Lee는 자신의 연구에서 LLM에 최면을 걸어 취약한 코드와 악성 코드를 생성하는 방법과 실시간 오디오 대화를 거의 실시간으로 가로채고 왜곡하는 방법을 보여주는 개념 증명을 개발했습니다.