FT가 아마존 내부에서 벌어지는 한 가지 현상을 잡아냈다. 직원들이 사내 AI 에이전트 빌더 MeshClaw로 불필요한 작업을 일부러 자동화해 토큰 소비량을 부풀리고 있다는 것이다. MeshClaw는 원래 코드 배포 트리거, 이메일 트리아지, Slack 같은 앱과의 상호작용까지 묶을 수 있는, 꽤 본격적인 사내 에이전트 도구다. 그런데 직원들 입에서 나오는 말은 이렇다. "그냥 토큰 사용량을 최대로 뽑으려고 MeshClaw를 쓰는 사람들이 있다."
배경에는 두 가지 정책이 깔려 있다. 아마존은 개발자 80% 이상이 매주 AI를 사용해야 한다는 목표를 걸었고, 올해 초부터 토큰 소비량을 사내 리더보드에서 추적하기 시작했다. 회사 측은 이 수치가 인사 평가에 반영되지 않는다고 한다. 그런데 또 다른 직원은 "매니저들은 본다"고 말한다. 추적되는 순간 사람들이 경쟁적으로 변하고, 비뚤어진 인센티브가 생긴다는 것이다. 같은 행태가 메타에서도 "tokenmaxxing"이라는 이름으로 돌았다.
토큰 소비량이라는 지표 자체가 문제다. 모델 공급사 쪽에서 보면 매출 프록시고, 회사 입장에선 채택률을 빠르게 그릴 수 있는 손쉬운 숫자다. 그러나 한 개발자가 같은 문제를 얼마나 더 빨리, 더 잘 풀었는지에 대해서는 거의 아무것도 알려주지 않는다. 그런데 이걸 사람별로 줄 세워 노출하는 순간 굿하트의 법칙이 정확히 그대로 발동한다 — 어떤 측정이 목표가 되면, 그것은 더 이상 좋은 측정이 아니다.
진짜 비용은 두 곳에서 빠져나간다. 하나는 외부 모델 API 청구서다. 의미 없는 자동화가 백그라운드에서 돌면 그 호출 비용이 그대로 회사 비용으로 잡힌다. 다른 하나는 더 까다로운데, 신호 오염이다. 경영진이 "어느 팀이 AI를 잘 도입하고 있나"를 보려고 만든 데이터가, 결과적으로 가장 게이밍에 능한 팀을 가장 잘하는 팀처럼 보이게 만든다. 절제해서 효율적으로 쓰는 팀일수록 "채택률 낮은 팀"으로 잘못 분류된다. 처방은 의외로 단순할 수 있다. 활동량 지표로 사람을 줄 세우지 않는 것, 적어도 리더보드 화면에서 사용자별 토큰 랭킹을 떼어내는 것. 보이는 순간 게임은 시작된다.