프로젝트 막판에 “정확도 92%” 슬라이드가 올라온다. 출시 후 첫 주부터 다른 문제가 시작된다. 같은 질문에 답이 들쭉날쭉하고, 근거가 흐릿하고, 금지된 행동이 섞인다. 사용자는 숫자보다 실패 순간을 기억한다. 정확도 하나로는 운영 리스크를 덮지 못한다.
정확도로는 배포 리스크를 덮지 못한다
에이전트는 단일 LLM보다 hallucination에 더 취약하다. 멀티-스텝 추론에서 한 단계의 오류가 하류로 증폭된다. 이 구조적 취약성은 오프라인 테스트셋 정확도로 가려지지 않는다. 유명 벤치마크도 오염 이슈가 확인됐다. 측정하려는 능력과 데이터가 섞여 실전 신뢰도를 반영하지 못한다. 배포를 전제로 한 평가 축을 바꿔야 한다.
정확도는 입장권일 뿐이다. 운영에서의 신뢰가 KPI다.
2024~2025년 사이 평가 패러다임이 “offline accuracy”에서 “runtime trust metrics”로 이동했다. 테스트셋 통과가 아니라 실제 트래픽에서 신뢰를 측정하고 제어한다.
오프라인 vs 런타임, 무엇이 다른가
| 구분 | 오프라인 정확도 중심 | 런타임 신뢰 중심 |
|---|---|---|
| 평가 대상 | 모델 응답의 정답률 | 에이전트의 일관성·근거·정책준수 |
| 데이터 | 고정된 테스트셋 | 실제 트래픽·세션 로그 |
| 주 지표 | EM/F1 등 정확도 | ARS·RGC·ACR·PAAS |
| 실패 처리 | 배포 전 튜닝 반복 | 실시간 공개·재시도·에스컬레이션 |
| 거버넌스 | 모델 성능 리뷰 | 정책 기반 제어·감사 추적 |
런타임 신뢰 지표 4종을 기본 계측으로 깐다
2025년에 제안된 대표적 지표 네 가지는 배포 환경에서 바로 작동한다. 핵심은 “계측 가능성”과 “행동 연결성”이다.
- ARS (Agent Reliability Score): 같은 질문에 대한 응답 일관성. 세션/시간 창을 정의해 반복 질의 시 답변 변동을 추적한다. 일관성이 떨어지면 재질의, 프롬프트 정규화, 사람 검토를 순차 트리거한다.
- RGC (RAG Grounding Confidence): 검색된 근거 문서에 응답이 얼마나 묶여 있는가. 근거 토큰과 응답 토큰 결속을 분석한다. 낮은 RGC가 관측되면 시스템이 자동으로 (a) 불확실성 공개, (b) 검색 재구성, (c) 사람 에스컬레이션 중 하나를 트리거한다.
- ACR (Attribution Completeness Ratio): 응답의 각 주장이 출처에 귀속 가능한 비율. 주장-출처 매핑이 비어 있으면 응답 일부를 마스킹하거나 인용 보강을 강제한다.
- PAAS (Policy-Aligned Action Score): 에이전트 행동이 정책(접근권한, 금지 행위)을 준수한 비율. 도구 호출, 시스템 명령, 외부 API 사용을 정책 엔진으로 검증한다.
이 네 지표는 서로 보완한다. ARS가 높아도 RGC가 낮으면 “같은 거짓을 일관되게” 낼 위험이 있다. ACR은 근거의 완결성을 강제하고, PAAS는 도구 사용을 안전선 안에 가둔다. 지표는 대시보드로 끝나지 않는다. 각 지표의 임곗값에 즉시 대응하는 제어 루틴이 있어야 한다.
사전 확률 예측과 에스컬레이션이 안전망을 완성한다
JPMorgan Chase의 2025년 특허는 pre-generation hallucination 확률을 예측한다. 들어온 질문을 의미 동등 변형들로 perturb하고, 독립 에이전트가 각 변형에 샘플 응답을 낸다. 이 변형 집합에서 경험적 hallucination 비율을 시뮬레이션으로 산출한다. 비율이 임계치 이상이면 모델 호출 없이 사람 검토로 우회한다. “고위험을 아예 태우지 않는다”는 철학이다.
에스컬레이션은 암묵 규칙이 아니라 명시 정책으로 설계한다.
- RGC/ACR 하락 시: 불확실성 공개 → 검색 재구성 → 사람 검토 순으로 단계 상승
- PAAS 위반 조짐: 해당 도구 차단, 세션 동결, 관리자 알림
- ARS 급락: 캐시 무효화, 프롬프트 표준화, 모델 전환
- 사전 확률 초과: 즉시 사람 우회, 로그 보존 및 사후 분석
에이전트는 멀티-스텝 구조로 오류가 증폭되므로, “사전 차단 + 런타임 제어 + 사람 개입”의 3중 안전망이 기본값이다.
현장 적용 절차: 계측-임곗값-거버넌스
운영에 넣을 계획이라면 다음 순서로 시작한다.
계측 설계: 세션 리플레이, 출처 토큰 추적, 도구 호출 감사 로그를 표준 스키마로 수집한다.
임곗값 캘리브레이션: 사내 대표 시나리오에서 ARS/RGC/ACR/PAAS의 초기 분포를 잡고, 사용자 영향도 순으로 임계 구간을 결정한다.
제어 루틴 연결: 각 지표 이벤트에 대응하는 공개/재시도/차단/에스컬레이션을 오케스트레이션에 연결한다.
거버넌스 라인: 정책 저장소, 변경 이력, 예외 승인 플로우를 만든다. 사람 검토 SLA와 책임소유자(온콜 포함)를 명시한다.
플랫폼 선택: 계측·리플레이·AB·평가를 자체 구축할지, Braintrust, LangSmith, Humanloop, Arize AI 같은 평가 플랫폼을 조합할지 결정한다.
벤치마크는 합격선이 아니라 건강검진이다. UC Berkeley RDI가 지적했듯, 벤치마크 오염을 감안하면 실트래픽 기반 신뢰 지표 없이는 배포 품질을 보증할 수 없다.
정리와 다음 단계
정확도는 설계의 일부다. 배포의 본질은 신뢰다. ARS/RGC/ACR/PAAS, 사전 hallucination 확률 예측, 명시적 에스컬레이션 정책을 한 묶음으로 운영에 연결하라. 이 프레임을 깔아야 현장에서 버틴다. 다음은 귀사의 워크플로에 맞춘 계측·임곗값·제어 루틴의 구체화다. 시작하려면 우리 방법론을 참고하라: AX Ops 방법론 →
참고
- A Unified Evaluation and Governance Framework for Trustworthy LLM Agents (2025): https://www.techrxiv.org/doi/pdf/10.36227/techrxiv.176799772.28164151/v1
- LLM-based Agents Suffer from Hallucinations: A Survey (arXiv 2025): https://arxiv.org/html/2509.18970v1
- UC Berkeley RDI — How We Broke Top AI Agent Benchmarks: https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/
- Braintrust — Best LLM evaluation platforms 2025: https://www.braintrust.dev/articles/best-llm-evaluation-platforms-2025
