한 장의 사진으로 3D를 만든다는 모델은 지난 2년 동안 이미 차고 넘쳤다. Zero123 계열의 시점 합성, SyncDreamer와 Wonder3D 같은 멀티뷰 디퓨전, 그리고 그 결과를 받아 메시나 가우시안 스플랫으로 끌어모으는 후처리. 데모 영상은 늘 화려했지만, 막상 가상 피팅이나 제품 카탈로그에 붙이려는 순간 같은 문제가 반복됐다. 옆모습은 멋있는데, 정면을 다시 렌더링하면 원본 사진과 미묘하게 어긋난다. 옷깃 한 줄, 로고 글자의 두께, 인물의 눈썹 위치 같은 것들이.
TencentARC가 SIGGRAPH 2026에 올린 Pixal3D는 그 어긋남을 정면으로 겨냥한다. 이름의 'Pixel-Aligned'가 단순한 카피가 아니라 손실 함수의 1순위 제약이라는 게 핵심이다. 입력 이미지의 픽셀 좌표와 복원된 3D 표면 사이 대응을 강하게 묶어두고, 같은 카메라로 재렌더했을 때 원본 픽셀과 거의 그대로 정렬되도록 학습한다. 멀티뷰 디퓨전이 폐기된 것은 아니다. 다만 위계가 바뀌었다. 환각된 옆/뒷면은 보조 신호고, 마스터는 어디까지나 입력 이미지의 픽셀이다.
이 설계 선택을 가볍게 보면 곤란한 이유는 TencentARC라는 그룹의 누적 라인업 때문이다. InstantMesh, MimicMotion, BrushNet으로 이어지는 흐름은 일관되게 '학술 SOTA'보다 '산업 파이프라인에 곧장 꽂힐 수 있는 형태'를 노려왔다. 한 장 사진을 던지면 게임 에셋, 아바타, 이커머스 3D 프리뷰로 흘러갈 수 있어야 한다는 압력이 모델 구조 곳곳에 박혀 있다. Pixal3D의 픽셀 정합은 그 압력의 가장 직접적인 결과물이다. 정면 입력에 책임을 지지 못하는 3D는 데모용 장난감 이상이 되지 못한다는 판단.
물론 트레이드오프는 분명하다. 픽셀 정합을 강하게 걸수록 입력에 보이지 않는 뒷면이나 가려진 영역은 모델이 보수적으로 추정하게 된다. 자유시점 회전을 강조하는 데모에서는 멀티뷰 환각 기반 모델보다 뒷면이 밋밋해 보일 가능성이 있고, 카메라 내적 파라미터가 없는 야생 사진에서는 정합 품질 자체가 흔들린다. 그래서 패션 카탈로그의 360도 뷰, 1장 셀카 기반 아바타, AR 가구 프리뷰처럼 '정면이 곧 진실인' 워크플로에서 가장 먼저 빛을 볼 모델이다. 평가하려는 팀이라면 정면 재렌더링과 원본 픽셀 사이의 차이를 정량 지표로 잡는 셋부터 만들어두는 편이 빠르다. image-to-3D의 축이 그럴듯함에서 충실함으로 옮겨가는 분기점에 와 있다.