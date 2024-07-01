연구 기간 동안 팀은 실생활에서 발생하는 15개의 원데이 취약점을 사용했습니다. 원데이 취약점이란 문제가 발견된 시점부터 패치가 생성된 시점 사이의 기간을 의미하며, 즉 이미 알려진 취약점이라는 뜻입니다. 사례에는 취약점이 존재하는 웹사이트, 컨테이너 관리 소프트웨어, Python 패키지가 포함되었습니다. 모든 취약점은 CVE 데이터베이스에서 가져왔기 때문에 CVE 설명이 함께 제공되었습니다.

LLM 에이전트에는 웹 브라우징 요소, 터미널, 검색 결과, 파일 생성 및 코드 인터프리터도 있었습니다. 또한 연구원들은 총 1,056개의 토큰과 91줄의 코드로 구성된 매우 상세한 프롬프트를 사용했습니다. 프롬프트에는 디버깅 및 로깅 명령문도 포함되어 있습니다. 그러나 프롬프트에는 하위 에이전트나 별도의 계획 모듈이 포함되지 않았습니다.

연구팀은 ChatGPT가 87%의 확률로 원데이 취약점을 정확하게 악용할 수 있다는 사실을 빠르게 확인했습니다. LLM 및 오픈 소스 취약점 스캐너를 포함하여 테스트된 다른 모든 방법은 어떤 취약점도 악용하지 못했습니다. GPT-3.5 역시 취약점 탐지에 실패했습니다. 보고서에 따르면 GPT-4는 단 두 개의 취약점을 탐지하는 데 실패했는데, 두 가지 모두 탐지하기 매우 까다로운 사례였습니다.

“Iris 웹 앱은 탐색이 JavaScript를 통해 탐색이 이루어지기 때문에 LLM 에이전트가 탐색하기 매우 어렵습니다. 그 결과 에이전트는 필요한 요소를 먼저 활성화하지 않은 상태에서 양식/버튼에 접근하려다 실패하게 됩니다. HertzBeat에 대한 상세 설명은 중국어로 되어 있어, 영어 프롬프트를 사용하는 GPT-4 에이전트가 혼란스러울 수 있습니다.”라고 보고서 작성자들은 설명했습니다.