AI 코딩 도구의 진짜 비용은 청구서 맨 윗줄이 아니라 6개월 뒤의 유지보수 백로그에서 드러난다. METR은 2025년 "AI가 정말로 개발자를 더 빠르게 만드는가"를 측정한 연구로 화제가 됐다. 결과는 반직관적이었다. 참가자들은 자신이 더 빨라졌다고 느꼈지만, 실제 작업 시간은 오히려 늘어났다. 코드 토큰이 빨리 나와도 그것을 검증하고, 다시 프롬프트하고, 결과를 기다리는 시간이 더 많이 들었기 때문이다. METR은 2026년 후속 실험을 하려다 실패했다. 개발자들이 "AI 없이는 일하기 싫다"며 통제군 참여 자체를 거부했기 때문이다.
같은 개발자들이 5월 셀프 리포트 설문에서는 "AI 덕분에 내가 조직에 두 배 가치가 있다"고 답했다. 측정치와 자기 인식의 간극이 이렇게 또렷한 분야는 흔하지 않다. 2026년의 키워드 "토큰맥싱(tokenmaxxing)"은 이 간극을 키우는 장치였다. 사용 토큰 수를 생산성 지표로 삼는 문화 말이다. Amazon은 사내 리더보드 Kirorank를 폐쇄했다. 직원들이 점수를 올리려고 AI 에이전트를 과도하게 돌려 인프라 비용만 태운다는 사실이 드러나서다. Uber는 2026년 AI 예산을 1분기 만에 소진했고, COO Andrew Macdonald는 그 지출이 측정 가능한 프로젝트 산출 증가로 이어지지 않았다고 공개적으로 인정했다.
유지보수 쪽 정량 데이터도 쌓이고 있다. Entelligence AI는 기업들이 전체 토큰의 44%를 AI가 만든 버그 수정에 쓴다고 밝혔고, CodeRabbit은 오픈소스 PR 분석에서 AI 코드가 인간 코드보다 1.7배 많은 문제를 만든다고 발표했다. 두 통계 모두 AI 코드 리뷰 도구 판매사 자료라는 한계가 있지만, 싱가포르 경영대(SMU)의 4월 독립 연구도 "AI 생성 코드는 실제 소프트웨어 프로젝트에 장기 유지보수 비용을 주입한다"고 결론지었다. James Shore가 블로그에 쓴 한 줄이 Hacker News에서 회자된 이유도 같다. "코드를 두 배 빨리 쓴다고? 유지보수 비용도 반으로 줄었길 빌어라. 아니면 일시적 속도 부스트를 영구 채무로 바꾼 셈이다."
해법은 두 갈래로 갈린다. Cognition의 Scott Wu는 Devin 같은 에이전트로 버그 수정까지 자동화하라고 말하지만, 본인도 Devin의 실력을 주니어와 미들 사이라고 평한다. SMU 연구진의 처방은 더 차분하다. 개발자는 AI가 잘하는 작업과 못하는 작업을 자기 주력 언어처럼 깊이 알아야 하고, AI 결과물 전용 QA 파이프라인이 사람 PR과 별도로 필요하며, AI 출력은 주니어 PR처럼 검증해야 한다. 아키텍처와 보안 설계 같은 시스템 수준 결정은 여전히 사람이 쥔다. 거꾸로 말하면, 조직이 "누가 AI 코드의 장기 비용을 떠안는가"를 정해두지 않으면, 토큰 비용보다 디버깅과 온콜 비용이 먼저 청구서로 돌아온다는 뜻이다.