Google의 Gemini 3.5 Flash는 이름만 들으면 익숙한 포지션을 떠올리게 합니다. Flash는 빠르고, Pro는 비싸고 강한 모델이라는 구도입니다. 그런데 이번 Artificial Analysis 수치는 그 구도를 흔듭니다. 출력 속도는 초당 280토큰 이상으로 확실히 빨라졌고, MMMU-Pro에서는 84%로 최고점을 찍었습니다. 비디오와 오디오 입력까지 받는 범용성도 커졌습니다.
문제는 가격표입니다. The Decoder가 짚은 핵심은 성능 향상보다 비용 상승입니다. Flash의 출력 토큰 가격은 기존 대비 3배로 뛰었고, 에이전트성 작업의 평균 비용은 GPT-5.5나 Claude 4.5 Sonnet보다도 75% 이상 비싸게 측정됐습니다. 벤치마크 점수만 보면 ‘더 똑똑한 저가형 모델’처럼 보이지만, 실제 작업 단가로 보면 이야기가 달라집니다.
특히 에이전트 워크플로에서는 토큰 단가 하나만으로 비용을 판단하기 어렵습니다. 모델이 더 많은 단계로 추론하고, 도구를 호출하고, 파일을 읽고, 중간 결과를 검증하면 한 번의 완료 작업에 들어가는 총량이 커집니다. Gemini 3.5 Flash의 변화는 그래서 단순한 가격 인상이 아니라, AI 제품 예산을 보는 방식의 전환 신호에 가깝습니다.
앞으로 팀이 봐야 할 숫자는 ‘입력/출력 토큰 단가’만이 아닙니다. 같은 작업을 끝내는 데 몇 턴이 걸리는지, 평균 도구 호출은 얼마나 많은지, 실패 후 재시도 비용은 얼마나 되는지까지 함께 봐야 합니다. 싸 보이는 모델이 실제 워크플로에서는 가장 비싼 선택이 될 수 있기 때문입니다.