컴퓨터를 쓰는 에이전트가 화제가 될 때 가장 먼저 소비되는 것은 대체로 데모 영상이다. 마우스를 움직이고, 창을 전환하고, 폼을 채우고, 버튼을 누르는 장면은 직관적이다. 그런데 팀이 실제로 맞닥뜨리는 과제는 그 다음 층에 있다. 같은 작업을 다른 환경에서도 다시 돌릴 수 있는지, 실패를 어떻게 복기하는지, 운영체제와 표면이 바뀌어도 제어 인터페이스를 유지할 수 있는지 같은 질문이다. trycua/cua는 바로 그 층을 한 저장소 안에 세운다.
구성은 비교적 선명하다. Cua Driver는 macOS에서 백그라운드 컴퓨터 제어를 맡는다. 커서나 포커스를 빼앗지 않으면서 클릭, 타이핑, 검증을 수행하고, 일반 접근성 루트만으로 다루기 어려운 Chromium 웹 콘텐츠나 canvas 기반 도구까지 겨냥한다. Cua Sandbox는 더 넓은 범위를 묶는다. shell.run, screenshot, mouse.click, keyboard.type, mobile.gesture 같은 공통 API를 중심으로 Linux container, Linux VM, macOS, Windows, Android, BYOI를 감싼다. CuaBot은 여기에 데스크톱 협업 감각을 얹는다. sandbox 안에서 돌고 있는 창을 네이티브하게 드러내고, H.265, 공유 클립보드, 오디오를 붙여 코딩 에이전트가 컴퓨터를 함께 쓰는 장면을 다듬는다.
이 저장소가 특히 또렷해지는 지점은 평가와 기록이다. Cua-Bench는 OSWorld, ScreenSpot, Windows Arena, 커스텀 태스크를 연결하고, 각 세션을 replayable trajectory로 남긴다. 즉, 컴퓨터를 쓰는 에이전트의 행위를 그때그때 성공한 시연으로 소비하지 않고, 다시 틀어보고 비교하고 학습 자산으로 전환할 수 있는 단위로 저장한다. 화면 제어를 모델의 재주만으로 보지 않고, 재실행 가능한 시스템 문제로 바꿔 다루는 방식이다. 여기에 Lume까지 더해지면 Apple Silicon에서 macOS와 Linux VM을 관리하는 층도 보강된다.
물론 범위를 넓힌 만큼 부담도 커진다. macOS, Windows, Android를 함께 품는 순간 권한 처리와 표면별 동작 차이는 빠르게 늘어난다. 로컬과 클라우드를 섞는 운영은 환경 일관성을 더 어렵게 만든다. 라이선스도 가볍지 않다. Kasm은 MIT, OmniParser는 CC-BY-4.0, optional cua-agent[omni]에 포함되는 ultralytics는 AGPL-3.0 조건이 걸린다. 그래서 CUA를 읽을 때 핵심은 멋진 자동 조작이 아니라, 그 조작을 샌드박스와 trajectory와 benchmark 안에 묶어 팀이 다시 사용할 수 있는 형태로 바꾸는 설계에 있다. 이 저장소는 컴퓨터 사용 에이전트를 한 번 잘 돌리는 법보다, 여러 번 다시 돌릴 수 있게 만드는 법에 더 가깝다.