전문가 128개에서 16개만 써도 성능이 유지된다 — Ai2의 EMO가 MoE 설계를 다시 쓴다
OnePageDaily·5/18/2026·16 views
Mixture-of-Experts 구조는 이미 대형 언어 모델의 기본값이 됐다. DeepSeek-V4도 Qwen3도 MoE다. 매 토큰마다 전체 파라미터를 쓰는 대신 소수의 전문가만 선택적으로 활성화해 추론 비용을 낮추면서 모델 규모를 키울 수 있기 때문이다. 그런데 MoE에는 잘 드러나지 않는 제약이 있다. 전체 모델이 항상 메모리에 올라가야 한다는 것. 어떤 토큰이 어느 전문가를 쓸지 미리 알 수 없으니, 수학 문제만 풀더라도 의학이나 법률 관련 전문가까지 모두 메모리에 대기시켜야 했다.
Allen Institute for AI(Ai2)와 UC Berkeley 연구진이 공개한 EMO는 이 문제의 원인을 정확히 짚는다. 표준 MoE에서 전문가들이 실제로 학습하는 건 내용 도메인이 아니라 언어 형식이다. 전치사, 정관사, 구두점 패턴에 반응하도록 특화된다. 논문에서 클러스터 분석을 해보면 이 차이가 선명하다 — 표준 MoE는 같은 문서 안 토큰들조차 서로 다른 전문가 클러스터로 흩어지지만, EMO는 하나의 문서 토큰들이 단일 클러스터로 수렴한다. EMO의 클러스터 레이블을 보면 health/medical wellness, US politics & elections, film/music/TV & book reviews처럼 실제 주제들이 나온다.
핵심 기법은 단순하다. 학습 중 하나의 문서 안 모든 토큰이 공통된 전문가 풀을 통해서만 라우팅하도록 강제하는 것. 라우터가 각 토큰의 전문가 선호도를 문서 단위로 평균 내서 가장 많이 선택된 전문가들로 풀을 구성한다. 두 가지 조정이 추가됐는데, 배치 단위 로드 밸런싱을 전역 계산으로 바꾼 것과(두 학습 목표가 서로 싸우는 걸 막기 위해), 풀 크기를 무작위로 변동시켜 추론 시 다양한 서브그룹 크기에 대응하게 한 것이다.
수치로 보면 설득력이 강하다. 1B 활성/14B 총 파라미터, 128-expert 모델을 1조 토큰으로 학습시킨 기준으로 — 전문가 32개(25%)만 남기면 여러 벤치마크 평균에서 약 1%p 하락, 16개(12.5%)를 써도 약 3%p 하락에 그친다. 동일 설정 표준 MoE는 10~15%p가 무너진다. GSM8K 수학 벤치마크에서는 16-expert 서브셋이 파인튜닝 후 풀 모델 수준을 회복했고, 표준 MoE는 64개(절반)에서 이미 4.9점으로 내려간 뒤 더 줄이면 랜덤 추측 이하로 떨어졌다. 도메인 선택 비용도 작다 — few-shot 예시 하나만 있으면 전체 검증셋 기반 선택과 비슷한 성능이 나온다.
메모리 제약 환경 배포는 당연한 응용이고, 범위는 더 넓다. 어린이 앱에서 도박·성인 콘텐츠 관련 클러스터를 런타임에 비활성화하는 콘텐츠 필터링, 어떤 입력이 모델의 어느 전문가를 활성화하는지 추적해 해석 가능성을 높이는 모니터링까지 논문에서 직접 다뤘다. 개별 전문가 모듈을 교체하는 부분 업데이트도 실험했다. 풀 모델 성능을 높이긴 했지만 독립 서브그룹 수준엔 아직 못 미쳤다 — 최적 서브그룹 선택·조합 방법과 태스크별 모듈 재학습 전략은 열린 문제로 남겼다. Ai2는 모델, 베이스라인 MoE, 학습 코드를 Hugging Face와 GitHub에 공개했으며 토큰 활성화 인터랙티브 데모도 함께 제공한다.