상담봇이 실수할 때마다 “신뢰도 85% 미만이면 사람에게 넘겨라”로 수습하려는 팀을 자주 본다. 첫 주엔 사고가 줄어든 듯 보이지만, 곧 에스컬레이션이 쏟아지고 쉬운 케이스까지 막혀 버린다. 반대로 높은 임계값을 고집하면 정작 위험한 케이스가 구멍난다. 이건 설계의 문제다.
임계값 하나로 운영을 통제하려는 순간, HITL은 비용만 늘리고 학습은 멈춘다.
신뢰도 임계값은 과신 편향 앞에서 무력하다
신경망은 체계적으로 과신한다. “95% 확신”이라고 말하고도 틀리는 케이스가 반복된다. raw confidence에 단일 임계값을 대면, 착시를 제어하지 못한다.
업무마다 임계값 기대치도 다르다. 금융은 규제가 빡빡하니 9095%를, 헬스케어는 환자 안전 때문에 95%+를 요구한다. 일반 고객 문의는 8085%면 충분하다. 그런데 이 수치를 맥락 없이 그대로 쓰면, 각 업무의 리스크 구조를 무시한 결정이 된다.
복합 트리거는 신뢰도·리스크·맥락·비율을 묶는다
트리거는 네 가닥을 동시에 본다.
- confidence 임계값: 업무별 기준선 설정과 구간화.
- 리스크 분류: 규제/법무 키워드, 금액·약정 변경 등 고위험 플래그.
- 에스컬레이션 비율 모니터링: 목표 10~15%를 벗어나면 과소/과다 개입으로 판단해 동적으로 보정.
- 맥락 요인: 감정적 복잡성, 비즈니스 룰 위반, “사람 연결” 같은 명시적 요청.
2025년에는 runtime trust metrics(ARS, RGC, ACR, PAAS)와 사전 할루시네이션 확률 예측(JPMC 특허 등)을 confidence와 결합해 트리거로 쓴다. 모델이 답하기 전, 실패 가능성을 스스로 측정해 사람에게 미리 넘긴다.
단순 임계값 vs 복합 트리거, 무엇이 다른가
| 항목 | 단순 임계값 트리거 | 복합 트리거 설계 |
|---|---|---|
| 신호 | confidence 1개 | confidence + 리스크 + 비율 + 맥락 |
| 리스크 차등 | 모든 결정 동일 임계값 | 업무/상황별 임계값 프로파일 |
| 과신 보정 | raw score 신뢰 | calibration·runtime trust 연동 |
| 비율 제어 | 없음, 변동성 큼 | 에스컬레이션 10~15% 목표 관리 |
| 맥락 처리 | 규칙 부재 | 감정·규칙 위반·사람 요청 즉시 트리거 |
| 성과 | 과다/과소 개입 반복 | 정확도 최대 99.8%, 할루시네이션 96%↓, FCR 25~40%↑ 보고 |
| 학습 루프 | 사람 판단 미반영 | 에스컬레이션 결과를 재학습 데이터로 수집 |
성능 수치는 HITL 체계가 신뢰도 기준 아래에서 사람을 개입시키는 운영에서 보고된 상한이다. 포인트는 임계값을 고정 숫자가 아닌 운영 변수로 다룬다는 점이다.
운영에서 무너지는 설계 패턴을 차단하라
실패 패턴은 뻔하다.
- 모든 결정에 같은 임계값을 적용한다. 리스크 차등이 없다.
- calibration 점검 없이 모델의 raw confidence를 그대로 믿는다.
- 에스컬레이션 이후 사람의 판단을 재피드백하지 않는다. 시스템이 학습하지 않는다.
이 셋만 막아도 불필요한 에스컬레이션과 누락 사고가 동시에 줄어든다.
단계별 설계 가이드: 트리거는 운영 변수다
기준선 설정: 업무별 임계값 범위를 정한다. 금융 90
95%, 일반 문의 8085%, 헬스케어 95%+.보정과 진단: 신뢰도 calibration을 먼저 맞추고, ARS/RGC/ACR/PAAS 같은 runtime trust를 병행한다. 사전 할루시네이션 확률 예측을 붙여 “생성 전 차단” 경로를 만든다.
리스크·맥락 규칙: 규제 키워드, 금액 한도, 계약 변경, 금지 어휘 등 고위험 신호를 독립 트리거로 둔다. 고객의 명시적 사람 요청은 무조건 에스컬레이션한다.
비율 가드레일: 에스컬레이션 목표를 10~15%로 두고, 구간별 동적 임계값 조정으로 과소/과다를 제어한다. 목표 범위를 벗어나면 자동으로 기준을 미세 조정한다.
피드백 루프: 사람이 확정한 답변·조치·라벨을 재수집해 재학습 큐에 넣는다. HITL은 품질 보증이자 데이터 엔진이다.
점진적 롤아웃: 섀도우 모드로 경보만 보내며 오탐·누락을 계량하고, 주 단위로 임계·규칙·메트릭 가중치를 조정한다.
요지는 단순하다. 트리거는 “숫자 하나”가 아니라 운영에서 계속 조율되는 시스템이다. 복합 신호와 가드레일, 피드백 루프를 갖춰야 8590% 자율 실행, 1015% 사람 개입이라는 균형이 선다. 이 균형을 조직의 표준 운영으로 만드는 절차와 지표는 AX Ops 방법론 →에서 다룬다.
참고
- Galileo — How to Build Human-in-the-Loop Oversight for AI Agents — https://galileo.ai/blog/human-in-the-loop-agent-oversight
- Elementum AI — Human-in-the-Loop Agentic AI: When You Need Both — https://www.elementum.ai/blog/human-in-the-loop-agentic-ai
- OneReach — Human-in-the-Loop (HitL) Agentic AI for High-Stakes Oversight 2026 — https://onereach.ai/blog/human-in-the-loop-agentic-ai-systems/
