Oppo Multi-X 팀이 공개한 X-OmniClaw 기술 보고서는 모바일 에이전트의 좌표를 다시 그린다. 보고서는 첫 페이지부터 RedFinger, 알리바바 Wuying, 텐센트 클라우드 폰을 대조군으로 세운다. 그쪽은 데이터센터 안 가상 안드로이드 인스턴스에 에이전트를 띄우는 구조라, 사용자의 실제 카메라·로컬 센서·프라이빗 데이터에 닿을 수 없다. X-OmniClaw는 정반대로 perception, control, app interaction의 코어 로직을 물리 단말 위에 둔다. 클라우드 LLM은 고난도 추론이 필요할 때만 "fuel"로 호출된다는 표현이 보고서에 그대로 박혀 있다.
파이프라인이 한 줄이라는 점도 인상적이다. 텍스트·음성·카메라·화면 입력을 시간축에 정렬해 비전-언어 모델이 장면과 발화를 함께 해석하고, 구조화된 intent로 변환한 뒤에야 액션이 시작된다. 데모에서 사용자가 에비앙 스프레이를 카메라로 비추며 "How much does this cost on Taobao?"라고 묻자, 내부에서는 "price of Evian spray on Taobao"로 의도가 재구성된 뒤 쇼핑 앱 진입, 스크롤, 스크린샷, 가격·판매량 낭독까지 자동으로 이어진다. "open the second item" 같은 후속 발화는 추가 grounding 없이 그대로 받아낸다. ScreenAvatar 모드에서는 화면 위 연습 문제를 한 줄로 풀어 정답을 직접 탭하기까지 한다.
장기 기억 설계가 이 프로젝트의 또 다른 축이다. 유휴 시간에 갤러리 사진을 단말 안에서 객체·장면·이벤트 단위로 요약해 image-memory.md라는 마크다운 파일로 쌓고, 저장 직전 민감 정보 필터를 통과시킨다. "앵무새 사진 모아 하이라이트 앨범 만들어줘"라는 음성 한 줄이 들어오면, 이 마크다운 메모리에서 매칭 파일을 추리고 CapCut의 원클릭 합성 화면으로 deeplink 점프해 다중 탭으로 이미지를 선택한다. 보고서는 클라우드 비전 업로드 리스크를 명시하면서, 다음 단계로 raw 이미지가 폰을 떠나지 않는 on-device 비전 모델로의 이행을 적었다.
액션 레이어의 차별점은 tap path cloning에 있다. 매번 같은 화면을 step-by-step으로 재생하는 대신, 한 번 본 앱 페이지의 launch activity 자체를 복제해 다음부터는 deeplink로 직행한다. 메이투안의 깊게 묻힌 할인 페이지처럼 공개 deeplink가 없는 화면조차 한 번의 시연이면 음성 명령으로 정확한 서브페이지에 다시 진입한다. 실패하면 더 단순한 launch 방식으로 단계적 폴백이 깔린다. UI 요소 탐지는 XML 구조 + on-device grounding 모델 + OCR을 합쳐, 광고가 화면을 덮어 XML 트리만으로 좌표가 잡히지 않는 인터페이스까지 견디게 했다. ByteDance UI-TARS의 "순수 비전 GUI agent" 노선 위에 구조 신호와 on-device 실행을 얹어 동적 UI의 에러 마진을 깎겠다는 의도가 분명하다. HermesApp 코드베이스 위에 올려놓고 OpenClaw·Nous Hermes Agent와는 다른 좌표에 자리잡은 이 보고서는, "폰 밖으로 나가지 않는 에이전트"라는 전제를 메모리·스킬·실행 모든 층위에서 일관되게 끌고 가는 작업이다.