AX LABS
← 블로그 에이전트 제품 설계

오래 가는 에이전트는 분리된다

복구는 더 큰 컨테이너가 아니라 상태 설계다

현장에서 장기 실행 에이전트를 붙여보면 같은 장면이 반복된다. 데모에서는 잘 돈다. 밤새 레포를 읽고, 테스트를 돌리고, 보고서를 만든다. 그런데 운영으로 옮기는 순간 컨테이너가 만료되고, 세션이 끊기고, 중간 산출물이 사라진다. 팀은 다시 timeout을 늘리고 더 큰 VM을 붙인다. 그 선택은 문제를 늦출 뿐이다.

내구성은 실행 시간이 아니라 경계에서 나온다

Durable sandbox agent는 오래 살아 있는 샌드박스가 아니다. 죽어도 이어지는 에이전트다. OpenAI는 2026년 Agents SDK 설명에서 에이전트 상태를 외부화하면 샌드박스 컨테이너를 잃어도 실행을 잃지 않고, snapshotting과 rehydration으로 새 컨테이너에서 마지막 checkpoint부터 계속할 수 있다고 설명했다. 핵심은 컨테이너 수명이 아니라 상태 소유권이다. (openai.com)

하네스는 에이전트 루프를 소유한다. 목표, plan, message history, tool policy, 권한, 관측 로그, 평가 이벤트를 관리한다. compute는 실행 공간이다. 파일시스템, shell, package cache, 브라우저, 임시 서비스가 들어간다.

둘을 붙이면 장애 복구는 재실행이 된다. 둘을 분리하면 장애 복구는 재연결이 된다.

샌드박스는 일하는 장소이고, 하네스는 일을 기억하는 시스템이다.

Snapshot은 파일 저장이 아니라 실행 계약이다

snapshot을 단순한 폴더 백업으로 보면 복구가 깨진다. 장기 실행 에이전트의 checkpoint는 세 가지를 함께 묶어야 한다.

계층 저장 대상 복구 때 검증할 것
Harness state 목표, plan, 대화, tool call id, pending action 같은 단계가 중복 실행되지 않는가
Workspace state 파일, dependency, cache, 산출물 hash와 manifest가 맞는가
External state 티켓, PR, DB 변경, API 호출 흔적 이미 반영된 부작용을 다시 만들지 않는가

Cloudflare는 2026년 Sandboxes GA에서 workspace backup·restore API를 통해 에이전트 coding session을 비싼 setup 반복 없이 복원한다고 밝혔다. Vercel도 2026년 sandbox persistence GA에서 stopped sandbox에 대한 명령 호출이 최신 snapshot에서 새 session을 시작한다고 설명했다. 두 발표가 같은 방향을 가리킨다. 운영 에이전트는 실행 환경을 저장하는 것이 아니라, 다음 실행이 어디서 이어질지 계약한다. (developers.cloudflare.com)

Rehydration은 새 컨테이너를 믿지 않는다

rehydration 절차는 낙관적으로 쓰면 안 된다. 새 샌드박스를 띄우고 파일을 복원한 뒤 곧바로 다음 tool call을 던지는 방식은 장애를 숨긴다.

운영 설계에서는 네 단계를 둔다.

  1. manifest로 런타임, 권한, network egress, secret lease를 재구성한다.
  2. workspace snapshot을 복원하고 hash·필수 파일·dependency lock을 확인한다.
  3. harness state를 불러와 마지막 완료 step과 pending step을 분리한다.
  4. 외부 부작용 ledger를 확인한 뒤 resume, retry, compensate 중 하나를 결정한다.

Deno Sandbox는 2026년 발표에서 sandbox는 기본적으로 ephemeral이고, 상태가 필요할 때 volume과 snapshot을 사용한다고 설명했다. Microsoft Foundry Hosted Agents도 각 agent session에 isolated sandbox와 persistent file system을 제공한다고 밝혔다. 다만 persistent filesystem만으로 durable agent가 완성되지는 않는다. 파일은 복원돼도 의사결정 경계와 외부 부작용이 복원되지 않으면 같은 장애가 반복된다. (deno.com)

장기 실행은 AX Ops로 운영 단위가 된다

AX LABS가 보는 설계 원칙은 간단하다. agent harness는 제품 코드처럼 관리하고, compute는 교체 가능한 실행 자원으로 다룬다. checkpoint는 tool boundary마다 남기고, snapshot retention은 업무 리스크에 맞춘다. rollback은 개발 편의 기능이 아니라 운영 통제 기능이다.

2026년 DeltaBox 논문은 stateful AI agent를 위해 filesystem과 process state를 함께 다루는 checkpoint/rollback 구조를 제안했다. 논문의 세부 성능 수치보다 중요한 메시지는 분명하다. 에이전트가 긴 작업을 하려면 상태 관리가 agent loop 바깥의 부가 기능이 아니라 핵심 실행 경로가 된다. (arxiv.org)

따라서 durable sandbox agent의 설계 질문은 “어느 sandbox vendor를 쓸 것인가”에서 끝나지 않는다. “하네스가 무엇을 기억하고, compute는 언제 버려도 되는가”로 바뀐다. 이 경계를 먼저 그은 팀만 장기 실행 에이전트를 운영 자산으로 만든다. AX Ops는 이 경계를 전략, 설계, 운영 지표까지 한 사이클로 고정한다. AX Ops 방법론 →

참고