당신 조직도 LLM PoC는 잘 끝냈는데, 운영에 올리자마자 티켓이 쌓이고 비용 그래프가 계단식으로 튀었을 것이다. 모델 로그는 멀쩡한데 에이전트가 왜 그 버튼을 눌렀는지, 왜 우회로를 탔는지 아무도 설명 못한다. 보안팀은 툴 권한 경계를 요구하고, 현장은 롤백 스위치를 찾는다. 이건 개발 역량 부족의 문제가 아니다. 파이프라인이 달라졌다.
모델 배포와 에이전트 배포는 다르다
결정론적 코드에서 확률론적 모델을 거쳐 자율 시스템으로 이동했다. 모델은 입력 X에 대해 출력 Y를 낸다. 에이전트는 목표 G를 받으면 A→B→C→D 또는 A→C→F→B→D 같은 경로를 실행 중(runtime)에서 만든다. 실행 경로가 emergent다. 운영은 정해진 함수를 감시하는 일이 아니라, 변하는 의사결정 체인을 관리하는 일로 바뀐다.
에이전트를 모델처럼 배포하면, 원인 미상의 실패·안전·비용 문제로 운영이 무너진다.
이 전환은 이미 가속됐다. 2025년 들어 OpenAI Agents SDK(3월), Google ADK(4월), Anthropic Agent SDK(Claude 4.6 동반 공개)가 잇달아 나왔고, LangGraph와 CrewAI는 프로덕션 성숙도를 보였다. Gartner는 2025년 초 이후 AI 에이전트 플랫폼에 대한 기업 관심이 1,445% 증가했다고 밝혔다. 도입이 아니라 운영이 병목이다.
AgentOps의 3축: Control Plane, Reasoning Observability, Permission Boundary
에이전트를 운영하려면 MLOps 위에 세 층을 추가해야 한다.
- Central Control Plane: 에이전트의 배포·버전·A/B·롤백을 일관되게 관리한다. 어떤 툴과 데이터에 접근할지, 어떤 레이트 리밋과 토큰 예산으로 움직일지 중앙에서 강제한다. 에이전트를 위한 Kubernetes다.
- Reasoning Chain Observability: 기존 APM이 HTTP를 추적하듯, AgentOps는 결정의 흐름(decision trace)을 추적한다. 각 스텝에서 고려한 옵션, 선택 이유, 다음 액션을 기록해야 디버깅이 된다. 전통 로그가 “무엇이 일어났는가”를 남겼다면 이제 “왜 일어났는가”를 남겨야 한다.
- Permission Boundaries: 툴 사용과 데이터 접근을 계약화한다. 경계가 없으면 작은 프롬프트 변동이 곧 보안 사고와 비용 폭주로 이어진다. 경계가 명시되면 실험은 빨라지고, 사고는 국소화된다.
벤더 지형도 빠르게 정리되는 중이다. LangSmith, Braintrust, Weights & Biases, Helicone, Arize AI 등은 관찰성과 평가, 비용·품질 관리 도구를 제공하며 AgentOps 퍼즐의 일부를 채운다. 그러나 도구 조합만으로는 충분하지 않다. 위 세 축을 조직 운영 규칙으로 먼저 세워야 한다.
MLOps vs AgentOps: 파이프라인은 이렇게 바뀐다
다음 표는 차이를 한눈에 정리한다.
| 구분 | MLOps | AgentOps |
|---|---|---|
| 운영 단위 | 모델(함수) | 에이전트(목표 지향 실행체) |
| 주된 목표 | 예측 성능과 안정적 서빙 | 목표 달성률과 안전한 의사결정 흐름 |
| 배포/릴리스 | 모델 버전 교체 | 에이전트 정책·툴 권한·플로우 버전 동시 관리 |
| A/B·롤백 | 엔드포인트 스위칭 | 결정 트레이스 기반 단계적 전개·세분 롤백 |
| 관찰성 초점 | 지연, 에러, 모델 출력 | 옵션 세트, 선택 이유, 플랜 변형, 코스트 트레이스 |
| 테스트 전략 | 오프라인·샌드박스 평가 | 시나리오·툴 상호작용·권한 경계 침투 테스트 |
| 권한/안전 | 애플리케이션 레벨 제어 | 중앙 권한 경계와 툴 스코프 계약 |
| 비용 통제 | 인퍼런스 단가·스케일링 | 토큰/툴 호출 예산, 실패 루프 차단 |
| 실패 모드 | 예측 오차·서빙 장애 | 루프, 과잉 호출, 권한 일탈, 잘못된 플랜 고착 |
표의 핵심은 단위와 신호가 바뀐다는 점이다. 에이전트를 측정·통제하는 신호는 정확도나 레이턴시만이 아니다. 목표 달성률, 결정 트레이스의 품질, 권한 경계 준수율, 호출 예산 건전성이 운영의 주 신호가 된다.
바로 착수할 실행 순서
이행은 단계적이어야 하지만, 순서는 단호해야 한다.
목표 기반 정의로 전환: 작업 단위를 목표(G)–제약–허용 툴로 재정의한다. 프롬프트 정제만으로는 운영 신호가 서지 않는다.
결정 트레이스 계측: 모든 에이전트 스텝에 옵션·선택 근거·다음 액션·코스트를 남긴다. 실패 리플레이가 가능해져야 한다.
Control Plane 세우기: 배포·버전·A/B·롤백을 중앙화하고, rate limit과 토큰 예산을 정책화한다. “수동 핫픽스”는 금지한다.
권한 경계 계약화: 툴/데이터 스코프를 선언하고 승인 흐름을 붙인다. 무권한 호출은 기본 차단한다.
벤더 선정은 기능이 아니라 적합성으로: 관찰성·평가·비용 통제에서 현재 스택과의 결합도를 본다. 도구는 교체 가능해야 하고, 운영 규칙은 고정되어야 한다.
이 다섯 가지만 지키면, 프로덕션에서 디버깅·안전·비용 통제가 가능해진다. 다음 단계는 조직의 운영 규칙을 AX Ops로 표준화하는 일이다. 더 구체적 프레임과 체크리스트가 필요하면 내부 워크숍에서 다루자. AX Ops 방법론 →
참고
- Covasant — MLOps, LLMOps, & AgentOps: The Essential AI Pipeline Guide — https://www.covasant.com/blogs/mlops-llmops-agentops-the-essential-ai-pipeline-guide
- Halacli — From MLOps to AgentOps: The Next Evolution — https://www.halacli.com/19_2026-02-15-mlops-to-agentops
- MLOps Community — Agents in Production 2025 — https://home.mlops.community/public/collections/agents-in-production-2025-2025-07-23
- LogicMonitor — AIOps vs DevOps vs MLOps vs Agentic AIOps — https://www.logicmonitor.com/blog/aiops-devops-mlops-and-agentic-aiops
