월말 청구서가 먼저 문제를 알려주는 조직이 많다. 현장은 이미 에이전트를 쓰고 있는데, 비용은 Finance가 뒤늦게 본다. 개발팀은 “사용자가 늘었다”고 말하고, 현업은 “잘 되니 더 돌렸다”고 말한다. 둘 다 맞다. 그래서 위험하다.
그날 우리가 먼저 한 일은 모델 교체가 아니었다. 에이전트를 멈추고, 비용을 업무 단위로 다시 읽었다. 총액은 아무것도 설명하지 못한다. 어느 agent, 어느 task, 어느 tool, 어느 retry가 돈을 태웠는지 봐야 한다.
예산 초과는 기술 이슈가 아니라 운영 이슈다
에이전트 비용은 토큰 단가표로만 관리되지 않는다. 실제 비용은 실행 구조에서 나온다. 같은 질문도 context를 계속 누적하면 매 호출이 무거워진다. tool schema가 길면 호출하지 않아도 입력 비용이 붙는다. 실패한 tool call을 agent가 스스로 반복하면 비용은 조용히 증식한다.
OpenAI와 Anthropic 모두 usage·cost 확인 API와 dashboard를 제공한다. LangSmith 같은 관측 도구도 run 단위 token과 cost를 추적한다. 문제는 도구 부재가 아니다. 대부분은 이 데이터를 예산 회의의 언어로 연결하지 않았다.
에이전트 비용은 청구서에서 줄이지 못한다. 실행 중에 끊어야 한다.
우리는 그날부터 비용을 “월간 API 비용”이 아니라 “업무 처리 1건의 agent run cost”로 바꿔 봤다. 그래야 중단선이 생긴다.
먼저 끊은 것은 반복과 장문 context였다
비용 초과 현장에서 반복적으로 보이는 패턴은 비슷하다. 비싼 모델 하나가 문제의 전부인 경우는 드물다. 더 흔한 원인은 harness의 느슨함이다.
| 관찰된 증상 | 즉시 조치 | 남긴 운영 규칙 |
|---|---|---|
| 같은 tool을 여러 번 호출 | retry 상한 설정 | 실패 사유별 재시도 정책 분리 |
| 대화 이력을 통째로 전달 | static context와 dynamic input 분리 | prefix cache가 깨지는 변경 금지 |
| 모든 task를 상위 모델로 처리 | routing rule 재정의 | task 난이도별 model tier 고정 |
| 결과 검증 없이 다음 단계 진행 | HITL checkpoint 삽입 | 고비용 action 전 승인 필요 |
OpenAI 문서는 prompt caching이 동일 prefix에서 비용과 지연을 줄인다고 설명한다. Anthropic도 static content를 앞에 두고 cache breakpoint를 잡는 방식을 안내한다. 그래서 우리는 prompt를 “잘 쓰는 문장”이 아니라 “cache가 유지되는 구조”로 다시 쪼갰다.
context engineering은 멋진 이름의 프롬프트 작업이 아니다. 비용이 반복해서 새는 부분을 구조적으로 고정하는 일이다.
모델 절감보다 계측 단위를 바꿨다
그다음 한 일은 dashboard를 하나 더 붙이는 것이 아니었다. 비용 데이터에 업무 ID를 붙였다. agent_name, task_type, user_group, tool_name, retry_count, cache_hit, approval_step을 같은 run record에 남겼다.
총비용 그래프는 임원을 설득하지 못한다. 하지만 “이 업무는 승인 전 검색 tool에서 비용이 몰린다”, “이 부서는 실패 retry가 많다”, “이 task는 저가 모델로 내려도 결과 품질이 유지된다”는 문장은 의사결정을 만든다.
최근 agentic coding 비용을 분석한 논문도 같은 방향을 가리킨다. agent 작업은 실행마다 token 사용량 편차가 크고, 더 많은 token이 항상 더 높은 정확도로 이어지지 않는다. 현장에서의 결론은 단순하다. 예산을 예측하려면 평균 단가가 아니라 run 분포를 봐야 한다.
다음날부터 예산은 정책이 됐다
우리가 남긴 것은 절감 캠페인이 아니었다. 운영 정책이었다.
- agent별 일일 spend guardrail을 둔다.
- tool call과 retry에는 상한을 둔다.
- 장문 context는 cache 가능한 prefix와 변동 입력으로 나눈다.
- 고비용 action 전에는 HITL checkpoint를 둔다.
- 비용 초과는 월말 보고가 아니라 incident로 처리한다.
이렇게 해도 에이전트 비용은 계속 움직인다. 모델 가격, tool 과금, context window, cache 정책이 계속 바뀌기 때문이다. 그래서 AX Ops에서는 비용을 구매 조건이 아니라 운영 지표로 본다. 예산을 넘긴 날 필요한 것은 더 싼 모델 찾기가 아니라, agent harness에 브레이크와 계기판을 넣는 일이다.
에이전트를 운영에 올릴 계획이라면, 첫 설계 문서에 비용 차단선을 같이 넣어야 한다: AX Ops 방법론 →
참고
- OpenAI, API Pricing, 2026: https://openai.com/api/pricing/
- OpenAI, Usage and Costs API Reference, 2026: https://platform.openai.com/docs/api-reference/usage/costs
- OpenAI, Prompt Caching Guide, 2026: https://platform.openai.com/docs/guides/prompt-caching
- Anthropic, Prompt Caching, 2026: https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching
- Anthropic, Usage and Cost API, 2026: https://docs.anthropic.com/en/api/data-usage-cost-api
- LangChain, LangSmith Cost Tracking, 2026: https://docs.langchain.com/langsmith/cost-tracking
- arXiv, How Do AI Agents Spend Your Money?, 2026: https://arxiv.org/abs/2604.22750
