Dharma-AI가 HuggingFace에 공개한 DharmaOCR 벤치마크는 조용하지만 선명한 결과를 남겼다. 브라질 포르투갈어 OCR 태스크 — 인쇄물, 손글씨, 법률·행정 문서를 포함한 — 에서 3B 파라미터 특화 모델이 복합 점수 0.911을 기록하며 전 구간 1위를 차지했다. 2위는 Claude Opus 4.6로 0.833, Gemini 3.1 Pro 0.820, GPT-5.4 0.750이 뒤를 이었다. 1위와 2위 사이의 격차(약 0.08)는 나머지 순위들 사이의 어떤 인접 격차보다도 컸다. 비용 격차는 더 극적이다 — 페이지 백만 장 기준으로 Claude Opus 4.6 대비 약 52배 저렴하다. 텍스트 디제너레이션 비율(생성이 루프에 빠져 유효 출력을 내지 못하는 비율)도 0.20%로 가장 낮았다. 품질, 비용, 안정성 세 지표를 동시에 이긴 모델은 가장 작은 모델 하나뿐이었다.
논문이 이 결과의 원인으로 지목하는 건 'distributional alignment'다. 모델의 학습 이력이 배포 태스크에 얼마나 가깝게 이동했는가의 문제다. SFT(지도 파인튜닝)는 기저 모델 대비 디제너레이션 비율을 낮추고, 여기에 DPO(직접 선호 최적화)를 적용하면 SFT 대비 더 낮아진다. 논문에 포함된 정렬 단계별 비교 데이터는 이 누적 효과를 정량적으로 보여준다. 수천억 파라미터가 모든 언어와 도메인에 분산돼 있을 때, 해당 도메인에 집중된 30억 파라미터가 앞설 수 있다는 논리다.
지난 3년간 기업 AI 도입의 기본값은 단순했다 — 가장 큰 프론티어 모델을 고른다. 이 가정이 틀린 적이 없었다. GPT-4, Claude 3, Gemini 1.5 세대를 거치며 더 크면 더 잘 됐고, 스케일링 법칙이 실제로 작동했다. 하지만 비교군에는 특화 모델이 빠져 있었다. 같은 조건에서 비용·품질·안정성을 동시에 측정한 벤치마크 자체가 드물었다. DharmaOCR이 채운 공백이 바로 그 자리다. 논문 자체도 이 비교를 '충분한 자원을 가진 기업이라면 복제 가능한 파인튜닝 파이프라인'을 전제로 서술한다 — 특수한 인프라나 수백억 원의 학습 비용을 요구하는 주장이 아니다.
논문은 결과의 일반화에 신중하다. 이 패턴이 모든 엔터프라이즈 워크로드에 적용된다는 주장이 아니며, Dharma도 이 경계를 명시한다. 도메인이 구체적이고, 학습 데이터가 확보되고, 성능 측정이 가능한 태스크라는 조건 하에서만 이 논리가 성립한다. 하지만 그 조건이 갖춰진 환경에서는 조달 결정의 질문 자체가 바뀐다 — '어떤 모델이 가장 강력한가'가 아니라 '내 태스크와 학습 이력의 교집합이 얼마나 큰가'로. 파라미터 수는 더 이상 결정 변수가 아닐 수 있다.