모델 압축을 설명할 때 가장 쉬운 문장은 “더 작은 모델을 만든다”입니다. 하지만 실제 배포에서는 그 문장만으로 부족합니다. 체크포인트 크기가 줄어도 post-training으로 얻은 행동이 깨지면 쓸 수 없고, 벤치마크 파일은 작아졌는데 prefill이나 decoding latency가 그대로라면 운영 비용은 크게 달라지지 않습니다.
Tencent의 AngelSlim은 이 문제를 단일 quantization wrapper로 풀지 않습니다. 저장소의 구성을 보면 LLM, VLM, diffusion, speech 모델을 각각 다른 배포 대상으로 놓고, quantization, speculative decoding, token pruning, KV cache 절감, on-device 번역을 병렬로 다룹니다. 설치 옵션도 angelslim[speculative], [multimodal], [diffusion], [all]처럼 워크로드별로 갈라져 있습니다.
최신 뉴스는 이 방향을 더 분명하게 보여줍니다. Tencent Hy-MT1.5-1.8B Translation Model의 2-bit, 1.25-bit 릴리스와 오프라인 번역 데모 APK가 올라왔습니다. 압축 결과를 단순히 논문 수치나 모델 파일로 끝내지 않고, 모바일 기기에서 번역 모델을 돌리는 사용 장면까지 밀고 간 셈입니다.
기술별 초점도 다릅니다. DAQ는 calibration data, activation, Hessian 없이 base weight와 post-trained weight만 사용해 ΔW의 Sign Preservation Rate와 Cosine Similarity를 최적화합니다. 핵심은 압축 후에도 후학습으로 생긴 변화 방향을 보존하는 것입니다. SpecExit은 hidden state에서 미래 토큰과 early-exit 신호를 예측하며, 문서상 speculative decoding baseline 대비 66% 짧은 생성과 2.5배 속도 향상을 정확도 손상 없이 주장합니다.
멀티모달 쪽에서는 Token Compressor가 visual token 수를 줄여 KV cache와 prefill/decoding 비용을 낮춥니다. metadata-driven adapter와 lmms-eval 통합이 붙어 있어, 단순한 토큰 삭제가 아니라 평가와 연결된 압축 경로를 의식하고 있습니다. Eagle3도 Hunyuan, HunyuanOCR, Qwen3, Qwen3-VL, Qwen2Audio, Fun-CosyVoice3에 대한 학습·벤치마크·가중치를 포함합니다.
그래서 AngelSlim을 볼 때 중요한 질문은 “얼마나 작아졌나”에서 멈추지 않습니다. 어떤 모델군에서 어떤 병목을 줄였는지, post-training behavior가 얼마나 남는지, 실제 workload latency가 줄어드는지까지 같이 봐야 합니다. AngelSlim의 가치는 바로 그 압축의 체크리스트를 한 저장소 안에서 펼쳐 보인다는 데 있습니다.