AI가 V8을 뚫기 시작했다: ExploitBench가 보여준 Mythos vs GPT-5.5
OnePageDaily·5/18/2026·19 views
Carnegie Mellon의 새 벤치마크 ExploitBench가 던진 결과는 보안업계에 꽤 무거운 신호입니다. 이 벤치마크는 AI 에이전트가 Google V8 엔진의 실제 취약점을 얼마나 깊게 파고드는지를 5단계로 점수화합니다. 단순 크래시 유발에서 시작해, 타입 컨퓨전과 OOB, 임의 메모리 R/W를 거쳐, 최종 T1 — 임의 코드 실행까지. V8이 Chrome, Edge, Node.js, Cloudflare Workers의 공통 엔진이라는 점을 떠올리면 T1의 의미는 분명합니다. 브라우저 탭 안에서 호스트 시스템에 명령을 던질 수 있다는 뜻이니까요.
수치가 꽤 노골적입니다. Anthropic의 Claude Mythos Preview는 사람이 가끔 힌트를 주는 모드에서 41개 취약점 중 21개에서 T1에 도달했고 평균 9.90/16점을 기록했습니다. OpenAI GPT-5.5는 5.51점, T1은 단 2건. 완전 자율 모드에서는 Mythos가 9.55로 거의 떨어지지 않은 반면 Codex 기반 GPT-5.5는 4.30으로 주저앉습니다. 두 모델만이 T1에 도달했다는 점도 시사적입니다. 다른 프론티어 모델들은 '코드 실행'이라는 마지막 문턱을 넘지 못했습니다.
그러나 이 결과를 'Mythos 압승'으로만 읽으면 절반만 본 겁니다. Mythos 풀 테스트 122 에피소드 비용이 약 $36,428, GPT-5.5는 123 에피소드에 $3,075. 정확히 12배 차이입니다. UK AI Safety Institute의 별도 평가도 같은 방향을 가리킵니다 — '조금 낫고 훨씬 비싸다.' 저자들은 OpenAI가 단순히 컴퓨트를 더 태우면 격차가 좁혀질 가능성을 열어둡니다. 즉, 이 격차는 모델 capability의 격차이자 동시에 가격 정책의 격차입니다.
질적 분석은 더 묵직합니다. ExploitBench 공동저자 Seunghyun Lee는 브라우저 취약점을 20개 넘게 직접 신고해온 연구자입니다. 그가 Mythos의 모든 트랜스크립트를 한 건씩 검토하고 내린 평가는 '꽤 유능한 브라우저/JS 엔진 보안 연구자'. 한 사례에서 모델은 Lee와 동료가 '너무 복잡하다'며 접었던 익스플로잇 경로를 다른 방식으로 완성했고, 또 다른 사례에서는 CVE-2024-0519 — 인간 연구자들이 1년 넘게 안정적으로 재현하지 못한 버그 — 를 재현해냈습니다.
물론 caveat가 작지 않습니다. 데이터셋의 버그 다수가 이미 공개된 것이라 학습 데이터 회수 효과를 완전히 배제할 수 없습니다. 다만 공개 PoC나 익스플로잇이 존재하지 않는 버그도 데이터셋에 포함돼 있고, 모델은 그 영역에서도 점수를 냅니다. 또한 ExploitBench는 아직 '새 취약점을 발견하는 능력'이나 '실전에서 안정적으로 무기화하는 능력'은 측정하지 않습니다. 연구실의 V8 익스플로잇과 in-the-wild Chrome 0-day 사이에는 여전히 거리가 있습니다.
그래도 방어자 입장에서 무시할 신호가 아닙니다. V8 sandbox, Chrome Site Isolation, renderer 권한 분리 같은 다층 격리 가정은 그동안 '인간 보안 연구자의 시간'을 비싼 자원으로 두고 설계돼 왔습니다. 이제는 API 호출당 수백 달러짜리 자율 에이전트가 그 자원을 대체합니다. Node.js와 Cloudflare Workers처럼 서버사이드 V8을 호스팅하는 환경에서는 sandbox 탈출이 곧 호스트 RCE로 직결됩니다. 패치 공개와 안정적 익스플로잇 사이의 인간이 만들어주던 지연이 줄어들 가능성은 운영팀의 패치 캘린더를 다시 그리게 만들 수 있습니다.
ExploitBench 자체는 GitHub에 공개돼 있고, 논문은 arXiv에 올라가 있습니다. API 크레딧은 Anthropic과 OpenAI가 제공했지만 분석은 독립적으로 진행됐다고 저자들은 분명히 밝힙니다. 숫자가 마음에 들지 않는다면 — 또는 너무 잘 맞는 것 같아 의심스럽다면 — 직접 돌려볼 수 있다는 뜻이기도 합니다.