에이전트를 붙인 뒤 첫 번째로 무너지는 것은 정확도가 아니다. 비용 감각이다. 대시보드에는 월 청구액만 보이고, 현장에는 “왜 같은 업무인데 어제보다 느리고 비싼가”라는 질문만 남는다. 원인은 단순하다. 토큰, 도구 호출, 지연 시간을 따로 본다. 따로 보면 아무도 책임지지 않는다.
2026년 5월 4일 기준 OpenAI API Pricing은 GPT-5.5를 입력 1M tokens당 5달러, 출력 1M tokens당 30달러로 공시하고, Web search는 1,000 calls당 10달러로 공시한다. 같은 페이지는 Flex processing을 낮은 비용과 더 높은 지연의 교환으로 설명한다. 비용은 이미 토큰 단가를 넘어 도구와 처리 등급까지 확장됐다. https://openai.com/api/pricing/ (openai.com)
에이전트 비용은 호출이 아니라 실행으로 봐야 한다
일반 챗봇은 한 번 묻고 한 번 답한다. 에이전트는 다르다. 모델을 부르고, 검색을 하고, 파일을 읽고, 도구를 실행하고, 다시 모델을 부른다. 그래서 “요청당 비용”만 보면 늦다. 이미 실행 경로가 길어진 뒤다.
OpenAI Agents SDK는 trace가 LLM generation, tool call, handoff, guardrail, custom event를 기록한다고 설명한다. Python SDK는 요청별 input/output token을 request_usage_entries로 추적한다. 이것이 출발점이다. 비용 모니터링은 결산 화면이 아니라 실행 단위 trace에서 시작한다. https://openai.github.io/openai-agents-js/guides/tracing/ https://openai.github.io/openai-agents-python/usage/ (openai.github.io)
에이전트 비용 관리는 “얼마 썼나”가 아니라 “어떤 경로가 예산을 태웠나”를 찾는 운영 체계다.
예산은 세 줄로 쪼개야 통제된다
AX Ops에서는 에이전트 예산을 세 줄로 나눈다. 토큰 예산, 도구 예산, 지연 예산이다. 셋을 분리해 보되, 의사결정은 함께 한다.
| 예산 항목 | 현장에서 새는 지점 | 운영 기준 |
|---|---|---|
| 토큰 예산 | 긴 system prompt, 반복 주입되는 문서, 과한 reasoning | run당 input/output/cached token 분리 |
| 도구 예산 | 검색 반복, 실패한 MCP 호출 재시도, 중복 파일 읽기 | tool name별 호출 수·실패율·단가 기록 |
| 지연 예산 | 느린 외부 API, 긴 tool loop, 고가 모델 재시도 | step별 p95보다 먼저 trace별 병목 확인 |
Anthropic Claude Agent SDK 문서는 PreToolUse hook 설정과 tool usage를 외부 webhook으로 보내는 예시를 제공한다. MCP 문서는 allowedTools로 허용 도구를 제한하고, MCP 서버 연결 상태를 시작 시점에 확인하라고 설명한다. 이 두 기능은 비용 통제의 핵심이다. 도구를 붙인 뒤 감시하는 것이 아니라, 실행 전 허용·차단·기록 조건을 심는다. https://code.claude.com/docs/en/agent-sdk/hooks https://code.claude.com/docs/en/agent-sdk/mcp (code.claude.com)
지연 시간도 비용 장부에 올라가야 한다
많은 조직이 토큰 비용만 예산으로 본다. 현장에서는 지연 시간이 더 먼저 문제를 만든다. 상담, 승인, 점검, 개발 보조처럼 사람이 기다리는 업무에서는 느린 에이전트가 곧 채택 실패다. 비용을 줄이려고 낮은 처리 등급을 쓰면 지연이 늘고, 지연을 줄이려고 우선 처리나 고성능 모델을 쓰면 비용이 오른다. 둘은 같은 장부에 있어야 한다.
OpenTelemetry GenAI semantic conventions는 gen_ai.client.token.usage, gen_ai.client.operation.duration, gen_ai.server.time_to_first_token, gen_ai.server.time_per_output_token 같은 지표를 정의한다. 아직 Development 상태지만 방향은 명확하다. 에이전트 운영 지표는 token과 duration을 같은 trace 안에서 본다. https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/ (opentelemetry.io)
실무 기준은 복잡하지 않다.
- 업무 유형별 run budget을 먼저 둔다.
- run 안에서 model step과 tool step을 분리한다.
- 실패 재시도는 별도 비용 항목으로 잡는다.
- 월 청구액보다 trace별 상위 낭비 경로를 먼저 본다.
AX Ops는 예산을 운영 규칙으로 바꾼다
비용 모니터링은 FinOps 대시보드 하나로 끝나지 않는다. 업무 설계, agent harness, 권한, 평가, 배포 기준이 함께 바뀐다. 예산 초과 시 모델을 낮출지, 검색 횟수를 줄일지, 사람에게 넘길지, 결과 품질을 다시 평가할지까지 정해져야 한다.
AX Ops에서 우리는 세 가지 산출물을 먼저 만든다. 첫째, 업무별 실행 예산표. 둘째, trace schema와 tag 체계. 셋째, 예산 초과 시 fallback rule이다. 이 세 가지가 없으면 에이전트는 PoC에서는 똑똑해 보이고 운영에서는 비싸고 느린 시스템이 된다.
참고
- OpenAI API Pricing, 2026년 5월 4일 확인: https://openai.com/api/pricing/
- OpenAI Agents SDK Tracing, 2026년 5월 4일 확인: https://openai.github.io/openai-agents-js/guides/tracing/
- OpenAI Agents SDK Usage, 2026년 5월 4일 확인: https://openai.github.io/openai-agents-python/usage/
- Claude Agent SDK Hooks, 2026년 5월 4일 확인: https://code.claude.com/docs/en/agent-sdk/hooks
- Claude Agent SDK MCP, 2026년 5월 4일 확인: https://code.claude.com/docs/en/agent-sdk/mcp
- OpenTelemetry GenAI Metrics, 2026년 5월 4일 확인: https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/
에이전트 비용을 줄이는 첫 단계는 모델을 깎는 것이 아니라 실행 예산을 설계하는 일이다. AX Ops 방법론 →
