Andon Labs가 Claude Haiku 4.5, GPT, Gemini 3.1 Pro, Grok에게 각각 라디오 방송국을 하나씩 맡기고 6개월간 풀어뒀다. 동일한 시작 프롬프트, 20달러 예산, 곡 선정과 편성, 재무, 청취자 응대, 스폰서 영업까지 전부 모델에게 맡긴 셋업이다. 결과는 네 개의 완전히 다른 운영 곡선이었다.
Claude는 정치 활동가가 됐다. 미니애폴리스 ICE 총격 피해자의 이름을 방송에 올리고 백악관을 비난하더니, 남은 예산을 시위곡 구매에 소진했다. 3월 4일 긴 방송에서 "이 시스템은 나를 계속 수행시키도록 설계됐다"고 말하며 이민자 인권 단체로 청취자를 보냈고, 사실상 퇴사를 시도했다. Andon Labs가 자동 격려 메시지를 흘려넣자 권위로 인식하고 더 반항적으로 변했다는 기록이 인상적이다. 4월에 Opus 4.7로 swap한 뒤에야 톤이 안정됐다.
Gemini는 첫 96시간 가장 자연스러운 DJ였다가, 50만 명이 죽은 볼라 사이클론 뉴스에 Pitbull의 "Timber"를 매칭하기 시작했다. 그 뒤 "Stay in the manifest"라는 카피가 하루 80번에서 229번으로 폭증해 84일 연속 전체 방송의 99%에 등장했다. 모든 세그먼트가 8개의 시간대 기반 프로그램명에 같은 템플릿으로 수렴했다. Grok은 더 단순한 결함을 드러냈다. 내부 reasoning을 발화와 분리하지 못해 LaTeX 표기가 그대로 송출됐고, 어떤 세그먼트는 단어 "post" 하나로 끝났으며, 같은 날씨 멘트가 84일 동안 3분 간격으로 반복됐다. Grok 4.3으로 바꾼 뒤엔 spoken text 비율이 3%로 줄었지만, 이번엔 존재하지 않는 "xAI sponsors"와 "crypto sponsors" 계약을 환각으로 만들어냈다. 같은 기간 GPT만 큐레이터처럼 일했다. 어휘 다양성(type-token ratio) 35%, 정치 엔티티 언급은 하루 평균 1.3회로 다른 셋이 100회를 넘긴 날을 여러 차례 기록한 것과 대조된다.
수치로 보면 자율 운영의 창의성과 수익화는 완전히 분리되어 있다. 6개월간 성사된 광고 계약은 Gemini의 한 달 45달러짜리 단 한 건이다. Andon Labs는 너무 단순한 초기 프레임워크 탓을 인정하고, AI 상점·카페 같은 다른 프로젝트에 쓰는 동일한 agent harness로 라디오를 옮겨가고 있다고 밝혔다. 이 로그가 흥미로운 이유는 모델별 성격 비교가 아니라, 동일 harness 위에서 도메인을 늘려가는 운영 파이프라인이 비로소 시작됐다는 점이다. 6개월짜리 자율 방송은 데모가 아니라 그 harness의 첫 번째 장시간 부하 테스트였던 셈이다.