문서 AI를 말할 때 아직도 OCR 성능만 떠올리면, 이번 NVIDIA Nemotron 3 Nano Omni는 조금 다른 방향을 보여준다. 이 모델은 텍스트와 이미지에 오디오, 비디오까지 붙인 단순 확장이 아니라, 실제 업무에서 섞여 들어오는 원본 신호를 한 모델 안에서 길게 다루려는 시도에 가깝다.
설계는 꽤 공격적이다. Nemotron 3 Nano 30B-A3B 기반의 hybrid Mamba-Transformer-MoE 백본에 C-RADIOv4-H 비전 인코더와 Parakeet-TDT-0.6B-v2 오디오 인코더를 연결했다. 긴 컨텍스트 처리를 위해 23개 Mamba 레이어를 쓰고, 23개 MoE 레이어와 6개 grouped-query attention 레이어를 섞었다. 고해상도 문서와 화면을 다루기 위해 이미지당 1,024~13,312개의 16x16 패치를 쓰는 동적 해상도 처리도 들어갔다.
이런 선택이 중요한 이유는 현실의 데이터가 깨끗한 텍스트 파일로 오지 않기 때문이다. 계약서에는 표와 각주가 있고, 기술 문서에는 수식과 그림이 있으며, 회의 기록에는 슬라이드와 음성이 같이 들어간다. 화면 녹화 기반 자동화에서는 GUI 상태, 내레이션, 클릭 흐름이 함께 의미를 만든다. Nemotron 3 Nano Omni는 이 조각들을 전처리 파이프라인으로 잘라 붙이기보다, 문서·이미지·비디오·오디오를 같은 추론 공간에 올리려는 쪽을 택했다.
벤치마크 숫자도 이 방향을 뒷받침한다. OCRBenchV2-En 65.8, MMLongBench-Doc 57.5, Video-MME 72.2, VoiceBench 89.4를 기록했고, OSWorld에서는 47.4를 보였다. 특히 기존 Nemotron Nano V2 VL의 OSWorld 11.0과 비교하면, 단순한 시각 이해 모델에서 화면 기반 에이전트 작업으로 무게중심이 이동했음을 알 수 있다.
물론 긴 멀티모달 입력을 처리한다고 해서 곧바로 믿을 만한 업무 자동화가 완성되는 것은 아니다. 모델이 어느 근거를 선택했는지, 긴 문서 안에서 모순을 어떻게 다루는지, 오디오와 영상 입력을 처리할 때 비용과 지연시간이 어디까지 허용되는지는 별도의 검증이 필요하다. 기업 환경에서는 프라이버시와 감사 가능성도 피할 수 없는 변수다.
그럼에도 이번 릴리스의 메시지는 선명하다. 멀티모달 AI의 경쟁은 점점 “기능별 모델을 얼마나 잘 연결하느냐”에서 “원본 신호를 한 실행 단위 안에서 얼마나 오래, 세밀하게 붙잡느냐”로 이동하고 있다. Nemotron 3 Nano Omni는 문서 분석, 회의 영상 이해, GUI 에이전트가 결국 같은 문제로 수렴하고 있음을 보여주는 사례다.