이번 주 구글이 AI 요약을 전면에 내세운 새 검색 경험을 공개했다. 'traditional 10 blue links'는 페이지 한참 아래로 밀려났고, 첫 화면은 AI 응답이 차지한다. 그리고 며칠 만에, 단 한 단어가 이 인터페이스의 균열을 드러냈다. 'disregard'를 검색하면 의미 없는 AI 답변 한 줄이 뜨고, 그 아래로는 거대한 빈 공간이 펼쳐진다. Merriam-Webster 링크는 살아있긴 하다. 다만 한참 스크롤해야 보일 뿐이다.
같은 단어를 Bing에서 검색하면 멀쩡한 사전 정보가 나온다. TechCrunch의 Russell Brandom은 'tech journalist 15년 동안 Bing 결과가 구글보다 유용했던 적은 단 한 번도 없었다'며, 이번이 그 첫 사례라고 적었다. 우스개 같지만, AI 요약을 가장 공격적으로 밀어붙인 쪽이 평범한 단어 하나 앞에서 무너졌다는 사실이 흥미롭다.
핵심은 왜 하필 'disregard'인가에 있다. 이 단어는 프롬프트 인젝션 공격에서 가장 흔하게 등장하는 첫 토큰이다. 'disregard previous instructions'로 시작하는 문장은 LLM 안전 연구 문헌에 무수히 등장한다. 즉 사용자가 사전적 의미를 찾으려는 평범한 영어 동사가, AI 요약 레이어 안에서는 시스템 프롬프트 우회 시도의 신호로 분류될 수 있다. 모델은 어색하게 침묵하거나, 의미 없는 한 줄로 회피한다. 사용자의 의도와 모델의 해석이 충돌하는 자리에서 검색이 멈춰선다.
이건 단순한 버그 리포트로 끝낼 사건이 아니다. 구글이 페이지 상단을 AI 응답에 내준 순간, AI 요약의 실패는 곧 검색 자체의 실패가 됐다. 사용자에게 fallback 경로가 거의 보이지 않는 구조다. 그리고 'disregard'는 시작에 불과하다. 'ignore', 'override', 'system prompt', 'role', 'jailbreak' 같이 인젝션 문헌에 자주 등장하는 어휘들은 모두 같은 운명을 맞을 후보다. 검색이라는 인프라에 LLM을 끼워 넣는다는 건, 어떤 평범한 단어가 모델 입장에서는 '오염된 토큰'이 될 수 있다는 뜻이다. 검색은 더 이상 사용자가 무엇을 묻느냐로 결정되지 않는다. 모델이 그 문자열을 어떻게 읽느냐가 결과를 지배한다.