구글 DeepMind가 5월 19일자로 Project Genie에 Street View grounding을 붙이고, Google AI Ultra 200달러 구독자에게 전 세계로 확장했다. 사용자가 Maps 핀으로 미국 내 좌표를 찍으면, 그 지점의 실제 거리뷰 이미지가 Genie 월드 모델의 시작 프레임이 된다. 외부 개발자에게 이미 공개된 Maps Imagery Grounding 레이어를 그대로 재사용하는 구조다.
인터페이스는 단순하다. 좌표 + 스타일 토큰('Ocean World', 'Desert Sands', 'Stone Age', 'B&W film') + 캐릭터 프롬프트를 묶어 던지면, 거리뷰 픽셀이 잠재공간에 앵커된 상태로 임의 스타일의 인터랙티브 환경이 펼쳐진다. 공식 예시도 의도를 그대로 드러낸다. 골든게이트 브리지를 'Ocean World'로 골라 다리 주변을 잠수하거나, 포트워스 스톡야드를 'B&W film'으로 1920년대 살룬·빈티지 카·트레이딩 포스트로 재해석한다. 즉 이 grounding은 사실 재현이 아니라 '실측 기하를 받아 스타일을 갈아끼우는' 변환이다.
발표 문맥이 더 흥미롭다. DeepMind는 Genie를 일반 목적 world model로 규정하면서, 이번 글에서도 "에이전트와 로봇이 실세계의 복잡성을 탐색·상호작용할 수 있는 가상 환경"이라고 직접 못 박았다. Waymo가 Genie로 도로 환경을 시뮬레이션하고 있다는 사실도 같은 문단에 함께 들어갔다. Ultra 구독자에게 푸는 건 분배 채널이고, 진짜 축은 임의의 실제 좌표를 시드로 받는 합성 환경 코퍼스다. 정책 학습용 데이터 분포의 distribution shift를 실측 이미지로 줄이려는 의도가 비교적 노골적이다.
다만 한계도 같은 글에 박혀 있다. Street View grounding은 미국 한정 출시이고 점진적으로 확대 예정, Project Genie 자체는 여전히 Labs 실험 프로토타입이며 디테일과 정확도는 개선 중이라고 본인들이 적었다. 거리뷰의 인물·번호판 블러가 다운스트림 학습 파이프라인에 어떻게 흘러가는지, Maps 약관과 라이선스가 이 새로운 사용 양태를 어떻게 정의할지는 아직 공개되지 않았다. 다음 관전 포인트는 두 가지다. Maps Imagery Grounding과 Genie 환경 생성이 별도 API로 풀려 배치 호출이 가능해지는 시점, 그리고 출력 환경의 물리 정합성·temporal consistency 벤치마크가 외부 검증 가능한 형태로 공개되는 시점이다.