AI 사이버 능력 예측이 두 번 틀렸다—Mythos Preview는 전례 없는 선을 넘었다
OnePageDaily·5/16/2026·13 views
영국 AI 안전 기관 AISI는 AI의 사이버 능력이 얼마나 빠르게 성장하는지 추적해왔다. 2025년 11월에 배증 주기를 8개월로 추정했고, 2026년 2월에는 4.7개월로 수정했다. 그리고 5월, AISI는 그 수정치조차 낡은 숫자가 됐다고 발표했다. Claude Mythos Preview와 GPT-5.5가 '그 가속된 기준선마저 실질적으로 초과했다'는 것이다. AISI 스스로도 '이 성능 도약이 새로운 추세인지 일회성 도약인지 불분명하다'고 밝혔다—신뢰할 수 있는 예측 자체가 어려워졌다는 의미다.
가장 주목할 지점은 AISI의 두 사이버 레인지를 Mythos Preview가 처음으로 모두 통과했다는 사실이다. 'The Last Ones'는 기업 네트워크를 대상으로 한 32단계 공격 시뮬레이션으로, 인간 전문가가 완료하는 데 약 20시간이 필요하다. Mythos Preview는 10번 중 6번 완주했다—이전 버전의 3번에서 두 배로 뛴 수치다. 'Cooling Tower'는 산업제어시스템 시뮬레이션인데, 이전 Mythos 버전을 포함해 어떤 모델도 통과한 적이 없었다. Mythos Preview는 10번 중 3번 통과했다. 독립 평가사 XBOW의 데이터도 인상적이다. 특히 Chromium V8 샌드박스에서 실제 취약점을 발견한 것이 눈에 띈다—이전 모델들이 false positive만 양산하던 영역이다. 소스코드 접근 시 false negative는 Opus 4.6 대비 55% 줄었다. XBOW는 '코드를 쓰는 능력도 인상적이지만, 코드를 읽는 능력이 더 인상적이다'라고 썼다.
하지만 XBOW의 평가는 성능만 조명하지 않는다. Anthropic이 Mythos Preview의 비용을 Opus 모델 대비 5배 수준으로 공지했고, XBOW는 이 가격 차이를 정면으로 다뤘다. 보고서는 'GPT-5.5 기반 에이전트에게 더 많은 시간을 주면 비슷하거나 더 나은 결과를 더 낮은 비용으로 얻는 경우가 많다'고 썼다. 복잡한 판단 태스크에서 Mythos Preview가 'Mediocre' 또는 'Fair' 등급을 받기도 했고, live system 접근이 source code 접근보다 성능에 더 결정적이라는 점도 지적됐다. XBOW의 권고는 단일 모델에 의존하지 말고 여러 모델을 조합해 운용하라는 것이다.
Anthropic의 레드팀 책임자 Logan Graham의 발언이 이 논의의 맥락을 가장 잘 보여준다. 그는 Project Glasswing 파트너들이 Mythos Preview를 활용해 몇 주 만에 '평소 1년치의 두 배에 달하는 high/critical 취약점'을 발견했다고 밝혔다. 동시에 '1년 안에 Mythos는 꽤 멍청해 보일 것'이라고 했다. 단일 모델의 성능이 아니라, 더 싸고 더 빠르고 더 창의적인 모델이 보안 없이 공개될 경우 방어 측이 얼마나 준비돼 있는지가 진짜 문제라는 것이다. EU와 중국은 Mythos 접근이 차단됐고, OpenAI는 GPT-5.5-Cyber 조기 접근을 논의하기 위해 EU에 먼저 손을 내밀었다—유럽이 미국 빅테크의 결정에 얼마나 의존적인지를 단적으로 드러내는 장면이다.