현장에서 가장 자주 보는 장면은 같다. MLOps 체계는 이미 있다. 모델 레지스트리도 있고, 배포 파이프라인도 있고, 모니터링 대시보드도 있다. 그런데 에이전트를 붙이는 순간 운영 질문이 바뀐다. “모델이 맞았나”가 아니라 “왜 이 도구를 호출했나”, “어디서 멈췄나”, “누가 승인해야 했나”, “다음 실행에서 같은 실수를 막을 수 있나”가 된다.
MLOps는 버릴 체계가 아니다. 다만 충분하지 않다. AgentOps는 MLOps 위에 행동 운영 계층을 얹는 작업이다.
AgentOps의 핵심은 모델을 감시하는 것이 아니라 에이전트의 실행 경로를 통제 가능한 운영 단위로 만드는 것이다.
MLOps는 모델을 보지만 AgentOps는 실행을 본다
MLOps의 중심 객체는 모델, 데이터셋, 피처, 실험, 배포다. AgentOps의 중심 객체는 목표, 계획, 컨텍스트, 메모리, 도구 호출, 권한, 중단, 재시도, 사람 승인이다.
최근 도구 흐름도 이 방향으로 움직였다. MLflow 3는 2025년 6월 출시되며 GenAI 애플리케이션을 위한 tracing, evaluation, observability를 전면에 세웠다. OpenAI AgentKit은 2025년 10월 Agent Builder, Connector Registry, eval 기능을 묶어 에이전트 구축과 최적화를 제품 흐름으로 제시했다. OpenTelemetry도 GenAI와 agent/tool span에 대한 semantic convention을 별도로 다루고 있다. 아직 많은 항목이 development 상태라는 점도 중요하다. 표준은 굳었지만 운영 관행은 아직 굳지 않았다.
| 구분 | MLOps | AgentOps |
|---|---|---|
| 운영 대상 | 모델 버전과 성능 | 실행 경로와 행동 품질 |
| 로그 단위 | 요청·응답·지표 | trace·tool call·handoff·guardrail |
| 실패 원인 | 데이터 drift, 성능 저하 | 계획 오류, 컨텍스트 오염, 권한 남용, 루프 |
| 통제 방식 | 배포 승인, 롤백 | 사전 차단, HITL, 재시도, 격리 실행 |
전환은 6단계로 해야 한다
AgentOps 도입은 한 번에 플랫폼을 사는 일이 아니다. 운영 단위를 바꾸는 순서가 있다.
- 업무 경계 정의: 에이전트가 끝까지 처리할 일, 사람에게 넘길 일, 절대 하지 말아야 할 일을 먼저 쓴다.
- trace 표준화: 입력, 모델 호출, retrieval, tool call, handoff, guardrail, 최종 응답을 하나의 실행 기록으로 남긴다.
- 도구 권한 설계: 읽기, 쓰기, 승인 필요 작업을 분리한다. 고위험 tool은 기본 차단이 출발점이다.
- 평가 세트 구축: 정답형 테스트만 두지 않는다. 다중 턴, 예외 상황, 거절해야 하는 요청, 느린 외부 시스템까지 포함한다.
- HITL 운영화: 사람 검토를 비상 버튼으로 두지 않는다. 어느 조건에서 누구에게 넘어가는지 SLA와 함께 정한다.
- AgentOps 보드 운영: 비용, 지연, 실패, 재시도, 승인, 사용자 피드백을 주간 운영 안건으로 올린다.
이 순서를 건너뛰면 PoC는 빨라진다. 대신 운영 전환에서 멈춘다.
지표는 정확도보다 복구 가능성을 봐야 한다
에이전트 운영에서 정확도 하나로는 부족하다. 실제 운영에서 중요한 것은 실패를 발견하고, 멈추고, 설명하고, 고치는 능력이다.
AX Ops에서는 초기 AgentOps 보드를 네 묶음으로 잡는다.
- 행동 지표: tool call 성공률, 불필요 호출, 반복 루프, handoff 빈도
- 품질 지표: 목표 달성, 근거 충실도, 정책 위반, 사용자 재작업
- 운영 지표: latency, 비용, 재시도, 장애 구간, 외부 API 실패
- 통제 지표: 승인 대기, 차단 이벤트, 권한 예외, audit trail 완결성
OpenAI Agents SDK 문서는 tracing이 LLM generation, tool call, handoff, guardrail, custom event를 기록한다고 설명한다. Anthropic Claude Agent SDK도 hooks를 통해 tool 사용 전후, subagent 실행, idle, 종료 이벤트에 개입할 수 있게 한다. 이 흐름은 분명하다. AgentOps는 사후 리포팅이 아니라 런타임 통제에 가까워지고 있다.
참고를 운영 설계에 연결해야 한다
최근 12개월 안의 1차 출처 중 로드맵 설계에 직접 참고할 만한 자료는 다음이다.
- MLflow 3 launch, 2025: https://mlflow.org/blog/mlflow-3-launch
- Databricks MLflow 3 for GenAI, 2026: https://docs.databricks.com/aws/en/mlflow3/genai/
- OpenAI AgentKit announcement, 2025: https://openai.com/index/introducing-agentkit/
- OpenAI Agents SDK tracing docs: https://openai.github.io/openai-agents-python/tracing/
- Anthropic Claude Agent SDK hooks docs: https://code.claude.com/docs/en/agent-sdk/hooks
- OpenTelemetry GenAI semantic conventions: https://opentelemetry.io/docs/specs/semconv/gen-ai/
- Linux Foundation A2A project launch, 2025: https://www.linuxfoundation.org/press/linux-foundation-launches-the-agent2agent-protocol-project-to-enable-secure-intelligent-communication-between-ai-agents
다음 행동은 단순하다. 기존 MLOps 자산을 버리지 말고, 그 위에 trace, tool governance, evaluation, HITL, AgentOps board를 붙여야 한다. AX LABS는 이 전환을 전략 문서가 아니라 운영 리듬으로 설계한다. 내부 적용 순서부터 점검하려면 AX Ops 방법론 →
