Meta가 Llama 4 시리즈를 공식 공개했습니다. Scout와 Maverick 두 모델을 오픈 웨이트로 동시에 풀었고, Llama 최초의 Mixture of Experts(MoE) 아키텍처를 도입했습니다.
Scout는 17B active / 109B total, 16 전문가 MoE 구조로 단일 H100에서 구동되며, 업계 최장 10M 토큰 컨텍스트를 제공합니다. Maverick는 17B active / 400B total, 128 전문가 MoE로 GPT-4o와 Gemini 2.0 Flash를 벤치마크에서 상회합니다.
핵심 혁신:
- MoE 아키텍처: 400B 규모의 지식을 17B 연산 비용으로 활용
- 네이티브 멀티모달: 텍스트·이미지·비디오를 같은 백본에서 Early Fusion 처리
- 10M 토큰: Llama 3(128K)의 78배, 코드베이스 전체를 한 번에 처리
- Behemoth 교사 모델: 2T 파라미터급으로 GPT-4.5, Claude Sonnet 3.7 상회
오픈 웨이트 MoE 멀티모달이라는 조합은 클로즈드와 오픈의 성능 격차가 사실상 소멸했다는 신호입니다. 다음 전장은 서빙 효율 싸움입니다.