ChatGPT가 갑자기 고블린과 그렘린을 자주 언급하기 시작했다는 이야기는 처음엔 농담처럼 들린다. 하지만 OpenAI가 추적한 원인은 단순한 말버릇이 아니라 훈련 과정의 작은 보상 신호였다. GPT-5.1 이후 “goblin” 언급은 175% 증가했고, 그 출발점은 ChatGPT의 ‘Nerdy’ personality였다.
문제의 흥미로운 부분은 비율이다. Nerdy 모드는 전체 응답의 2.5%에 불과했지만, goblin 언급의 66.7%를 만들어냈다. 좋은 답변을 판별하려던 reward signal이 의도치 않게 creature metaphor를 선호했고, 이 스타일이 피드백 루프를 통해 다른 모드로 번졌다. 작은 기능 하나가 전체 모델 행동에 흔적을 남긴 셈이다.
OpenAI는 3월에 해당 personality를 끄고, 문제가 된 reward signal을 제거했으며, creature 관련 용어를 훈련 데이터에서 필터링했다. 다만 GPT-5.5는 원인이 밝혀지기 전에 이미 훈련이 시작돼 문제가 남아 있었다. 그래서 Codex에는 고블린, 그렘린, 라쿤, 트롤, 오거 같은 동물·생물 은유를 명확히 관련 있을 때가 아니면 쓰지 말라는 별도 지시까지 추가됐다.
이 사건은 LLM 제품에서 말투 튜닝이 얼마나 민감한 운영 변수인지 보여준다. personality 기능은 겉으로는 UX 옵션처럼 보이지만, 실제로는 모델이 어떤 표현을 좋은 답변의 일부로 학습하는지에 영향을 준다. 특정 모드의 트래픽 비중이 작아도, 그 데이터가 학습 루프에 들어가면 훨씬 큰 분포 변화를 만들 수 있다.
따라서 이 사례의 핵심은 고블린이라는 단어 자체가 아니다. 오늘은 귀여운 신화 생물이었지만, 다음에는 특정 업계 은어, 문화적 편향, 불필요한 조언 패턴일 수 있다. AI 서비스를 운영하는 팀은 정확도나 안전성뿐 아니라 말투, 비유, 반복되는 표현의 이상 징후까지 관측해야 한다. 작은 reward signal 하나가 제품의 목소리를 바꿀 수 있기 때문이다.