AI 에이전트 보안이란 무엇인가요?

작성자

Staff writer

Staff Editor, AI Models

IBM Think

AI 에이전트 보안은 AI 에이전트 사용으로 인한 위험과 에이전틱 애플리케이션에 대한 위협으로부터 보호하는 관행입니다. 여기에는 에이전트 자체와 에이전트가 상호 작용하는 시스템을 보호하여 악의적인 목적으로 악용되지 않고 의도한 대로 작동하도록 하는 과정을 포함합니다.

에이전트는 계획을 세우고 의사 결정을 내리며 외부 도구를 연동하여 사용함으로써 자율적으로 작동하도록 설계된 AI 시스템입니다. 외부 사이버 공격뿐 아니라 에이전트가 의도치 않게 수행하는 행동으로부터 보호하는 것이 중요합니다. 에이전틱 AI는 빠르게 발전하는 분야이기 때문에, 기술의 발전과 함께 위협 환경도 실시간으로 진화하고 있습니다.

AI 에이전트의 중요한 특징 중 하나는 도구 호출 기능으로, 에이전트가 필요할 때 API, 데이터베이스, 웹사이트 또는 기타 도구에 연결해 활용할 수 있다는 점입니다. 도구 호출은 일반적으로 AI 에이전트 프레임워크 및 API를 통해 이루어집니다.

이론적으로 에이전트는 복잡한 작업을 계획하고 완수할 때 자신의 역량을 끌어올리기 위해 도구를 사용합니다. 예를 들어, 고객 서비스 에이전트가 고객과 소통한 뒤 내부 데이터베이스에 접속하여 해당 고객의 구매 이력을 확인할 수 있습니다.

멀티 에이전트 시스템은 여러 에이전트를 결합하여 복잡한 업무를 더 작은 단위로 나누어 분배함으로써 한 단계 더 발전된 형태를 보여줍니다. 중앙 계획 에이전트는 작업자 에이전트가 작업의 할당된 부분을 수행하는 동안 에이전트 워크플로를 관리합니다.

자율적으로 의사 결정을 내리는 AI와 도구 호출 기능이 결합되면 광범위한 이중 공격 표면이 형성됩니다. 해커는 에이전트의 동작을 조작하여 도구를 오용하게 하거나 SQL 삽입과 같은 보다 전통적인 벡터를 통해 도구 자체를 공격할 수 있습니다. AI 에이전트 보안은 이러한 두 가지 유형의 위협으로부터 에이전틱 AI 시스템을 보호합니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

에이전틱 AI 위협 환경

에이전트형 AI 시스템은 대규모 언어 모델(LLM)과 같은 독립형 AI 모델이나 기존의 소프트웨어 애플리케이션보다 더 폭넓은 취약점을 가지고 있습니다. 공격자가 없어도, 에이전트가 명확한 가드레일, 권한 및 접근 제어와 함께 제대로 관리·유지되지 않을 경우 스스로 보안 위험을 야기할 수 있습니다.

AI 에이전트 위협 환경은 다음을 포함합니다.

확장된 공격 표면

신속한 자율적 행동

예측할 수 없는 추론

투명성 부족

AI 에이전트

AI 에이전트의 5가지 유형: 자율 기능 및 실제 애플리케이션

목표 중심 및 유틸리티 기반 AI가 워크플로와 복잡한 환경에 어떻게 적응하는지 알아보세요.

AI 에이전트 구축, 배포 및 모니터링

확장된 공격 표면

에이전트는 종종 API, 데이터베이스, 클라우드 기반 시스템, 심지어 다른 에이전트(멀티 에이전트 시스템)까지 포함하는 더 큰 시스템에 통합되어 운용됩니다. 에이전틱 시스템을 구성하는 각각의 요소는 자체적인 취약점을 가지고 있습니다. 공격자들은 에이전틱 워크플로에서 잠재적인 약점을 겨냥하기 위해 다양한 도구와 악용 방법을 사용할 수 있습니다.

고속 자율 행동

에이전틱 자동화란 에이전트가 인간 사용자로부터 명확한 지시 없이 스스로 행동하는 것을 의미합니다. 에이전트는 빠른 속도로 행동하며, 동시에 같은 작업을 수행하는 다른 에이전트와 상호 작용할 수도 있습니다. 이러한 각 에이전트 행동과 아웃풋은 공격자가 에이전트 또는 전체 에이전틱 시스템을 침해할 경우 공격 기회와 증폭 경로가 될 수 있습니다.

예측할 수 없는 추론

추론이란 LLM 및 기타 생성형 AI 모델이 결정을 내리는 과정입니다. 즉, 통계적 모델링을 활용해 모든 입력에 대해 가장 가능성이 높은 아웃풋을 '추론'하는 것입니다. 추론은 확률적이므로 모델 아웃풋을 완전히 예측할 수 없어 에이전트 행동에 불확실성이 발생하게 됩니다.

따라서 사이버 보안 제공자들은 에이전트가 어떤 행동을 할지 완벽하게 예측할 수 없습니다. 이런 예측 불가능성은 기존의 사이버 보안 기법과 달리 에이전트 위협 완화 방안을 훨씬 더 복잡하게 만듭니다.

투명성 부족

OpenAI의 GPT 모델이나 Anthropic의 Claude와 같은 많은 AI 모델은 오픈 소스가 아닙니다. 따라서 이들 모델의 '내부를 들여다보고' 의사 결정이 어떻게 이뤄지는지 파악하는 것은 불가능합니다. 또한, 오픈 소스 모델이라 하더라도 모델이 아웃풋을 도출하는 과정이 본질적으로 복잡하고 불투명하기 때문에 완전한 투명성을 제공하지 못합니다.

이로 인해 에이전트 기반 시스템을 다루는 사이버 보안 담당자는 근본 원인 분석이나 사고 대응 계획을 수립하는 데 더욱 어려움을 겪을 수 있습니다.

에이전틱 AI의 취약점

에이전트 기반 위협 환경의 다면적 특성으로 인해 공격자가 악용할 수 있는 다양한 취약점이 존재합니다.

AI 에이전트 보안 취약점에는 다음이 포함됩니다.

프롬프트 인젝션

도구 및 API 조작

데이터 포이즈닝

메모리 포이즈닝

권한 침해

인증 및 액세스 제어 스푸핑

원격 코드 실행(RCE) 공격

연쇄적 장애 및 리소스 과부하

프롬프트 인젝션

프롬프트 인젝션은 AI 에이전트뿐만 아니라 모든 대규모 언어 모델(LLM)이 직면한 가장 심각한 취약점 중 하나입니다. 특히 에이전트는 자율적으로 행동할 수 있기 때문에 위험이 더 커집니다. 프롬프트 인젝션 공격은 공격자가 LLM에 악의적인 입력을 주입하여 원래 의도와는 다르게 동작하도록 지시하는 공격 방식입니다. 이로 인해 에이전트가 안전 및 윤리 지침을 무시하거나, 피싱 이메일을 발송하고, 데이터를 유출하거나, 도구를 악용하도록 유도될 수 있습니다.

간접 프롬프트 인젝션 공격은 악성 프롬프트를 모델에 직접 공급하는 대신 에이전트의 데이터 소스에 숨깁니다. 에이전트가 외부 웹 사이트와 같은 데이터 원본을 호출하면 악성 프롬프트가 모델에 전달됩니다. 여러 데이터 유형을 처리할 수 있는 멀티모달 에이전트는 이러한 유형의 공격에 특히 취약하며, 에이전트가 처리할 수 있는 각 형태의 데이터는 잠재적인 공격 벡터입니다.

목표 조작과 에이전트 하이재킹 비교

목표 조작과 에이전트 하이재킹은 프롬프트 인젝션 공격에서 공격자가 주로 노리는 결과입니다. 목표 조작을 통해 공격자는 에이전트의 목표나 사고 과정을 변경하여, 작업 접근 방식과 의사 결정 방식을 조정할 수 있습니다. 에이전트 하이재킹은 공격자가 에이전트에게 민감한 데이터에 접근하는 등 의도하지 않은 작업을 수행하게 만드는 공격입니다.

도구 및 API 조작

에이전틱 AI는 도구 사용과 API 연동 능력으로 잘 알려져 있습니다. 그러나 이러한 기능은 동시에 보안 취약점이 되기도 합니다. 공격자는 종종 프롬프트 인젝션을 통해 에이전트가 연결된 도구를 오용하도록 유도합니다.

도구 오용은 에이전트가 민감한 사용자 데이터를 공격자에게 유출하거나, 외부 연결을 무기화해 DDoS(분산 서비스 거부) 공격을 수행하는 결과를 초래할 수 있습니다. 이러한 공격에서 에이전트는 대상 네트워크에 대량의 연결 요청을 보내 과부하를 일으키고 시스템을 강제로 종료시킵니다.

데이터 포이즈닝

데이터 포이즈닝은 에이전트의 학습 데이터 세트 또는 외부 데이터 원본에 악성 데이터를 주입하는 것을 말합니다. 데이터는 에이전트가 학습하고 추론하며 행동하는 방식을 결정합니다. 학습 데이터나 입력 데이터가 손상되면 데이터 유출 등 의도하지 않은 동작이 발생할 수 있습니다.

예를 들어, 코딩 에이전트가 참조용으로 외부 코드 라이브러리를 호출할 수 있습니다. ‘AI 슬롭’과 ‘타이포스쿼팅’의 합성어인 슬롭스쿼팅은 정상적인 라이브러리와 유사한 코드 라이브러리 이름을 누군가가 의도적으로 등록하는 행위입니다. 이렇게 하면 모델이 실수로 가짜 라이브러리에서 일부 코드를 가져와 생성 코드에 포함시키도록 유도할 수 있습니다.

도구 오용과 더불어 데이터 포이즈닝은 공격자가 AI 에이전트 주변 시스템에 침투하고 손상시키는 공급망 악용의 한 요소입니다.

메모리 포이즈닝

메모리 포이즈닝은 에이전트의 영구 메모리, 즉 에이전트가 최근 수행한 작업 정보를 담고 있는 데이터를 변조하거나 손상시키는 행위입니다. 메모리 포이즈닝 공격은 에이전트가 이전 행동을 인식하는 방식을 조작해 향후 행동에도 영향을 미치도록 설계된 공격입니다.

권한 침해

자동화된 워크플로의 중심에 위치한 에이전트는 할당된 작업을 수행하는 데 필요한 데이터와 도구에 접근할 수 있는 시스템 권한을 보유합니다. 에이전트가 적절히 모니터링되지 않으면 필요 이상으로 과도한 권한을 보유하거나 추가로 부여받을 수 있습니다.

에이전트가 더 이상 필요로 하지 않는 권한이 제거되지 않으면, 이는 실질적 가치 없이 남아 잠재적인 공격 경로가 됩니다. 공격자는 에이전트의 권한을 악용해 메시지 전송, 트랜잭션 실행, 권한 상승, 시스템 변경, 민감한 데이터 조회 등 다양한 악의적 행위를 수행할 수 있습니다.

인증 및 액세스 제어 위조

공격자가 에이전트의 자격 증명을 탈취할 경우, 해당 에이전트로 가장해 에이전트가 접근 가능한 시스템을 손상시킬 수 있습니다. 에이전트 신원을 스푸핑하면 공격자에게 에이전트와 동일한 권한이 부여되어, 비인가 사용자가 에이전트가 수행할 수 있는 모든 작업을 즉시 실행할 수 있습니다.

취약한 인증 프로토콜이 머신러닝과 결합되면 공격자가 초기 침해 후 네트워크 내부로 빠르게 수평 이동할 수 있습니다. 수평 이동은 데이터 유출, 피싱 공격, 멀웨어 확산 등 다양한 공격으로 이어질 수 있습니다. 공격자는 에이전트의 동작 방식을 조작해 이후의 행동을 바꿀 수도 있습니다.

원격 코드 실행(RCE) 공격

원격 코드 실행(RCE)은 공격자가 외부에서 시스템에 악성 코드를 삽입하는 사이버 공격 유형입니다. 에이전트를 악용하면 공격자가 에이전트로 하여금 악성 코드를 실행하게 하여, 코드 실행 환경에 직접 접근할 수 있습니다. 일반적인 실제 사례로는 손상된 에이전트가 설치된 호스트 시스템에서 공격자가 사용자 자격 증명을 탈취하는 경우가 있습니다.

연쇄적 장애 및 리소스 과부하

연쇄적 장애와 리소스 과부하는 모두 에이전트 시스템을 마비시키는 결과를 초래합니다. 멀티 에이전트 시스템에서는 손상된 에이전트의 아웃풋이 네트워크 내 다음 에이전트에 부정적인 영향을 미쳐, 결국 전체 시스템이 다운될 때까지 장애가 연쇄적으로 발생할 수 있습니다.

리소스 과부하는 에이전트를 대상으로 한 DDoS 공격과 유사하며, 공격자는 처리 용량을 초과하는 요청을 보내 에이전트의 정상 동작을 중단시킬 수 있습니다. 최종 사용자의 관점에서 보면 에이전트 기반 애플리케이션이 다운된 것으로 보일 수 있습니다.

AI 에이전트 보안 조치

광범위하고 다양한 위협 환경에도 불구하고 에이전틱 AI 시스템은 효과적인 대응책과 AI 가드레일을 통해 보호될 수 있습니다. 사전 예방적 보안 태세를 취하고, 취약점 관리에 대한 최신 모범 사례를 준수하면 ML 및 사이버보안 전문가가 AI 에이전트를 안전하게 보호하고 진화하는 사이버 위협에 선제적으로 대응할 수 있습니다.

AI 에이전트 보안 모범 사례는 다음과 같습니다.

제로 트러스트 아키텍처

최소 권한의 원칙

컨텍스트 인식 인증

데이터 암호화

마이크로세그멘팅

프롬프트 강화

프롬프트 검증

제로 트러스트 아키텍처

제로 트러스트 아키텍처(ZTA)는 네트워크 내 모든 장치가 기본적으로 신뢰할 수 없다고 가정하는 보안 접근 방식입니다. 모든 네트워크 액세스 요청은 진행 전에 반드시 인증과 승인을 거쳐야 합니다. 지속적인 모니터링과 다단계 인증(MFA)은 위협에 효과적으로 대응하는 데 도움이 됩니다.

네트워크가 하나의 웹사이트이고 액세스 요청이 해당 사이트의 사용자라고 상상해 보세요. ZTA를 사용하면 로그인 화면에 확인란을 선택하고 사이트에 '다음에 기억'하도록 하는 옵션이 없습니다. 사용자는 매번 로그인할 때마다 비밀번호 입력과 추가 MFA 절차를 반드시 완료해야 합니다.

ZTA는 '절대 신뢰하지 말고 항상 검증'하도록 선택함으로써 공격자의 수평 이동 능력을 제한하고, 공격 표면을 줄이며, 더 많은 보안 대응 시간을 확보합니다.

최소 권한의 원칙

최소 권한 원칙은 네트워크 내 모든 장치 또는 에이전트가 맡은 역할에 필요한 최소한의 권한만을 부여받아야 한다고 규정합니다. 이는 모든 사용자와 장치를 엄격하게 '알아야 할 필요' 원칙에 따라 관리하는 것과 같습니다. 역할 기반 액세스 제어(RBAC) 및 속성 기반 액세스 제어(ABAC)는 권한 수준을 유지하고 데이터 보안을 강화하는 두 가지 방법입니다.

컨텍스트 인식 인증

상황 인식 인증은 사용자가 데이터를 접근할 수 있을 때만 에이전트가 그 데이터를 조회할 수 있도록 합니다. 액세스 권한은 에이전트의 역할, 권한 또는 시간에 따라 동적으로 조정될 수 있습니다.

데이터 암호화

최소 권한 원칙으로 액세스를 최소화하는 것 외에도 데이터는 암호화를 통해 손상된 에이전트로부터 추가적으로 보호될 수 있습니다. 전송 중인 데이터와 저장 중인 데이터는 모두 AES-256 암호화 또는 이와 유사한 방식으로 암호화되어야 합니다. 개인 식별 정보(PII)와 같은 민감한 정보가 포함된 데이터도 익명화하여 직원과 고객을 더욱 보호해야 합니다.

마이크로세그멘팅

마이크로세그멘팅은 네트워크와 환경을 개별 세그먼트로 나누는 설계 방식입니다. 에이전트가 코드를 실행할 수 있는 경우 수평 이동을 방지하기 위해 샌드박스 환경에서 실행해야 합니다. 엄격한 런타임 제어는 샌드박스 내에 에이전트를 포함하도록 환경을 더욱 강화합니다.

프롬프트 강화

프롬프트 보안 강화는 LLM에 오해의 여지를 최소화하는 엄격하고 제한된 지침을 제공하는 AI 보안 관행입니다. ML 시스템 설계자는 에이전트의 행동 범위를 엄격히 제한해 공격자가 에이전트를 속여 의도치 않은 동작을 수행하도록 하는 능력을 제한하는 데 도움을 줄 수 있습니다.

프롬프트 강화 기술에는 에이전트가 지침을 공개하는 것을 허용하지 않으며 제한된 범위를 벗어나는 요청을 자동으로 거부하도록 하는 것이 포함됩니다.

프롬프트 유효성 검사

프롬프트 유효성 검사는 프롬프트가 에이전트에 전달되기 전에 사전 정의된 규칙에 따라 검사합니다. 프롬프트 정화 또는 입력 검증이라고도 하는 이 방식은 프롬프트 인젝션 공격으로부터 에이전트를 효과적으로 차단하는 데 유용합니다. 마찬가지로 에이전트가 손상된 경우를 대비하여 산출 결과 역시 사용 전에 반드시 검증해야 합니다.