단어 하나에 무너지는 AI 검색: 구글 Overviews가 "disregard"를 명령으로 읽었다
OnePageDaily·5/26/2026·13 views
구글 검색창에 "disregard"를 쳤더니, AI Overviews가 요약 대신 챗봇 인사를 내놨다. "Got it. If you need anything else or have a new question later, just let me know!" 검색어를 검색어로 보지 않고, 자기에게 말을 거는 사람의 지시문으로 받아들인 결과다. The Verge가 X에서 포착해 직접 재현한 장면이고, 같은 현상이 "ignore", "skip"에서도 이어졌다. "ignore"엔 "Message received! I'm here and ready to help", "skip"엔 "It looks like your message was just a test or a typo!"가 떴다.
웃긴 장면 같지만 구조적으로는 가볍지 않다. AI Overviews는 사용자의 쿼리를 그대로 LLM 컨텍스트 어딘가에 끼워 넣는다. 그 위치가 시스템 프롬프트와 충분히 분리되지 않으면, 동사형 한 단어가 "앞 지시를 무시하라"는 지시문처럼 읽힐 수 있다. 프롬프트 인젝션 연구자들이 수년째 화이트보드에 그려 오던 그림이, 세계에서 가장 트래픽이 많은 검색 페이지에서 그대로 재현된 셈이다.
Google의 대응도 그 한계를 드러낸다. Android Authority에 보낸 입장은 "action-related queries를 잘못 해석하고 있고, 곧 패치하겠다"였고, 금요일 오후엔 "disregard"에 한해 AI Overview를 아예 숨기는 쪽으로 우회했다. 모델이 입력을 더 잘 구분하도록 다시 학습시키는 것이 아니라, 문제가 된 트리거에 셔터를 내리는 임시 봉합에 가깝다. "ignore"와 "skip"은 같은 오후에도 여전히 깨진 응답을 보였다는 점에서, 가드레일이 단어 단위 블록리스트 수준에 머물러 있을 가능성을 시사한다.
검색이 LLM의 입력으로 바뀌는 순간, 무엇이 데이터이고 무엇이 명령인지 구분하는 일이 검색의 새로운 핵심 디자인이 된다. 외부 페이지 본문이 그대로 모델 컨텍스트에 들어가는 RAG 파이프라인에서, 사용자가 친 단어 하나조차 명령처럼 읽힐 수 있다면, 페이지 안에 박힌 한 줄은 더 쉽게 같은 일을 한다. 이번 버그가 진짜로 보여준 건 AI Overviews의 미완성이 아니라, 검색 결과창이 모델의 attack surface가 됐다는 사실이다.