현장에서 가장 자주 보는 장면은 단순하다. PoC에서는 “더 깊게 생각하게 하니 좋아졌다”가 통한다. 운영에 올리면 같은 설정이 지연, 비용, 사용량 한도, 승인 대기열을 동시에 밀어 올린다.
문제는 모델이 아니다. 깊은 추론을 켜는 기준이 사람의 감이나 프롬프트 문구에 남아 있는 것이 문제다. OpenAI는 reasoning.effort를 none, minimal, low, medium, high, xhigh 같은 모델 의존 값으로 제공하고, Google Gemini는 thinkingBudget과 동적 thinking을 제공하며, Anthropic은 Claude의 effort와 extended thinking을 별도 제어로 설명한다. 즉 test-time compute는 이미 제품 기능이 아니라 운영 변수다.
깊은 추론은 기본값이 아니다
xhigh나 Claude의 Max effort를 기본값으로 두는 팀은 빠르게 두 가지 벽을 만난다. 하나는 비용 벽이고, 다른 하나는 대기시간 벽이다. 더 나쁜 것은 품질 벽이다. 모든 요청을 깊게 생각하게 만들면 정작 깊은 추론이 필요한 요청을 구분하는 감각이 사라진다.
깊은 추론은 “좋은 모델을 쓰는 습관”이 아니라 “위험한 순간에 쓰는 운영 권한”이다.
따라서 AX Ops에서는 모델 호출부 앞에 effort-control policy 엔진을 둔다. 이 엔진은 “어떤 모델을 부를까”보다 먼저 “이번 요청에 계산을 더 태울 자격이 있는가”를 판단한다.
정책 엔진은 세 신호만 본다
정책 엔진은 복잡하면 실패한다. 운영에서 반복해서 살아남는 신호는 세 가지다.
| 신호 | 보는 것 | 상승 조건 | 기본 조치 |
|---|---|---|---|
| 불확실성 | 검색 결과 충돌, 낮은 self-check, schema 재시도 | 근거가 갈리거나 검증 실패 | medium → high |
| 위험도 | 돈, 계약, 보안, 고객 통지, 외부 변경 | 되돌리기 어려운 행위 | high 또는 human review |
| 예산 상태 | 테넌트별 잔여 예산, 지연 SLA, 큐 적체 | 예산 부족 또는 피크 시간 | low로 강등, 비동기 전환 |
이 표가 중요한 이유는 명확하다. “중요해 보이면 xhigh”가 아니라 “불확실하고, 위험하며, 예산이 허용될 때만 xhigh”가 된다. 반대로 위험하지 않고 근거가 충분한 반복 업무는 low로 끝낸다.
운영 규칙은 라우팅보다 먼저 고정한다
정책 엔진은 코드 몇 줄이 아니다. 업무 합의다. 먼저 업무를 네 등급으로 나눈다.
- Routine: 분류, 요약, 형식 변환. low 또는 none.
- Judgment: 비교, 해석, 보고서 초안. medium.
- High-risk: 고객 영향, 금전, 보안, 인사 판단. high와 human review.
- Long-horizon: 보안 리뷰, 복잡한 코드 수정, 다단계 리서치. xhigh 또는 Max, 가능하면 비동기.
그 다음에 호출 로그에 반드시 남길 항목을 정한다. 요청 ID, 선택된 effort, 선택 사유, 예상 위험 등급, 실제 토큰·지연, 재시도 여부, 사람 승인 여부다. 이 로그가 없으면 정책은 개선되지 않는다. 비용 리포트만으로는 왜 깊게 생각했는지 설명하지 못한다.
중요한 설계 원칙도 하나 있다. policy 엔진은 모델에게 “이번에는 깊게 생각해”라고 부탁하는 레이어가 아니다. API 파라미터, max output, tool 권한, HITL 승인, 비동기 큐를 함께 조정하는 제어면이다.
참고와 다음 행동은 같이 본다
최근 공식 문서의 방향은 일관된다. 추론 강도는 모델 내부의 마법이 아니라 개발자가 조절하는 운영 손잡이다.
- OpenAI, Reasoning models 문서:
reasoning.effort와xhigh권고 — https://developers.openai.com/api/docs/guides/reasoning - OpenAI, GPT-5.5 가이드:
xhigh는 어려운 비동기 agentic task에 제한 — https://developers.openai.com/api/docs/guides/latest-model - Google, Gemini thinking 문서:
thinkingBudget,thinkingBudget=-1동적 thinking — https://ai.google.dev/gemini-api/docs/thinking - Anthropic, Claude extended thinking 문서: adaptive thinking과 thinking token 예산 — https://platform.claude.com/docs/en/build-with-claude/extended-thinking
- Anthropic Help Center, effort 설정: Low, Medium, High, Max의 용도 — https://support.claude.com/en/articles/8664678-change-the-model-effort-and-thinking-settings
AX 운영 설계의 핵심은 최신 모델을 빨리 붙이는 일이 아니다. 계산을 언제 더 쓰고, 언제 아끼고, 언제 사람에게 넘길지 조직의 규칙으로 고정하는 일이다. effort-control policy 엔진부터 설계하면 test-time compute는 비용 폭탄이 아니라 품질과 리스크를 조절하는 손잡이가 된다. 이 설계를 업무 운영에 붙이는 방식은 AX Ops 방법론 →에서 다룬다.
