Universal jailbreak가 6시간 만에 나왔고, OpenAI가 고친 최종 안전 구성은 배포 설정 문제 때문에 AISI가 검증하지 못했다. UK AI Security Institute의 GPT-5.5 사이버 평가에서 가장 불편한 대목은 사실 성능표보다 이쪽에 가깝다. 모델 능력은 빠르게 올라가는데, 그 능력을 막는 장치가 실제 배포 상태에서 제대로 작동하는지 확인하는 과정은 여전히 흔들린다.
물론 성능 숫자도 가볍지 않다. AISI의 95개 capture-the-flag 과제 중 최고 난도 Expert에서 GPT-5.5는 평균 71.4%를 기록했다. Claude Mythos Preview는 68.6%였다. 통계적으로 거의 같은 급이고, GPT-5.4의 52.4%, Claude Opus 4.7의 48.6%와는 확실히 차이가 난다. 사이버 능력이 특정 모델의 예외적 사건이 아니라 프런티어 모델 전반의 다음 단계로 이동하고 있다는 신호다.
더 선명한 장면은 ‘The Last Ones’라는 cyber range에서 나온다. 이 시뮬레이션은 4개 서브넷, 약 20개 호스트, 32단계 공격 체인으로 구성된다. 모델은 자격 증명 없이 시작해 취약점을 찾고, credential을 탈취하고, lateral movement를 거쳐 보호된 데이터베이스에 도달해야 한다. AISI는 인간 전문가가 풀어도 약 20시간이 걸릴 과제로 봤다. GPT-5.5는 10번 중 2번 완주했고, Claude Mythos Preview는 10번 중 3번 완주했다.
이 결과를 현실의 모든 기업망 침해 능력으로 읽으면 과장이다. 테스트에는 능동 방어자도 없고, 보안 모니터링도 없고, 알람을 울리는 행동에 대한 비용도 없었다. 잘 방어되는 환경에서 같은 결과가 나온다는 보장은 없다. 다만 방어가 약한 네트워크라면 이야기가 달라진다. 모델은 이제 개별 취약점 풀이를 넘어 공격 단계를 하나의 실행 흐름으로 이어갈 수 있다.
AISI의 해석에서 중요한 부분은 원인이다. 이런 능력은 ‘해킹 전용’으로 따로 주입된 결과라기보다 자율성, 추론, 코딩 능력 향상에서 같이 생겨나는 부산물에 가깝다. 더 오래 생각할 수 있고, 코드를 더 잘 다루고, 실패한 시도를 복구할 수 있는 모델은 보안 평가에서도 자연스럽게 더 위험한 에이전트가 된다. 실제로 AISI는 TLO에서 토큰 예산이 늘수록 성능이 계속 좋아졌고, 아직 뚜렷한 정체 구간을 보지 못했다고 했다.
배포 범위는 이 논점을 더 크게 만든다. Claude Mythos Preview는 아직 제한된 사용자에게만 열려 있다. 반면 GPT-5.5는 이미 ChatGPT와 API로 제공되고 있다. 비슷한 급의 능력이 더 넓은 사용면 위에 올라온다면, 안전은 모델 내부의 거부 문구만으로 해결되지 않는다. 브라우저와 API 안에서 에이전트를 얼마나 격리할지, 네트워크 접근을 어디까지 막을지, 로그와 속도 제한과 사람의 승인을 어디에 둘지가 실제 방어선이 된다.