DeepSeek-V3는 671B 파라미터에 토큰당 37B만 활성화하는 MoE 구조의 오픈 LLM이다. 컨텍스트 길이는 NIAH 기준 128K까지 안정적이고, math와 code 벤치마크에서 폐쇄형 선두 모델들과 어깨를 나란히 하거나 일부 영역에서는 앞선다. 가중치 자체는 DeepSeek-V3-Base와 DeepSeek-V3 두 가지로 공개되며, Hugging Face 기준 합계 용량 685B 안에는 14B 규모의 Multi-Token Prediction 모듈까지 포함된다.
구조 측면에서 핵심은 ‘크게 키우는 것’이 아니라 ‘얇고 정확하게 활성화하는 것’이다. MLA로 KV 캐시를 압축한 위에 DeepSeekMoE로 전문가를 잘게 분업시키고, 기존 MoE의 부하 분산을 위한 auxiliary loss 대신 auxiliary-loss-free load balancing으로 전문가 쏠림을 직접 보정한다. 학습 신호 측면에서는 Multi-Token Prediction 목적함수를 도입해, 한 스텝에 다음 여러 토큰을 함께 예측하도록 만들었다.
학습/시스템 레벨에서는 더 흥미롭다. FP8 혼합정밀 학습 프레임워크를 671B 초대형 모델에서 끝까지 굴려 검증했고, 알고리즘·프레임워크·하드웨어 공동설계로 cross-node MoE 통신을 계산 뒤에 겹쳐 숨기는 computation-communication overlap을 구현했다. 그 결과 14.8조 토큰 사전학습에 2.664M H800 GPU hours, 후속 단계 0.1M을 더해 총 2.788M H800 GPU hours로 학습이 끝났고, 그 긴 과정에서 롤백 0회·복구 불가능한 손실 스파이크 0회라는, 대규모 학습에서 흔치 않은 안정성을 기록했다.
그래서 이 레포의 진짜 가치는 모델 자체보다 ‘학습 레시피’에 있다. MoE와 FP8과 MTP를 671B 스케일에서 함께 운영하는 방법, R1의 추론 능력을 distillation으로 V3에 이식하는 흐름, README_WEIGHTS와 로컬 실행 가이드까지 공개된 운영 매뉴얼이 그것이다. 오픈 모델 경쟁의 축이 ‘몇 B냐’에서 ‘어떻게 안 터지게 학습·서빙하느냐’로 옮겨가는 지금, DeepSeek-V3가 남기는 가장 오래된 자산은 가중치 파일이 아니라 이 설계의 기록일 가능성이 높다.