AX Labs
← 블로그 AX 전략

정확도 집착은 AI 운영을 막는다

PoC 지표를 버리고 운영 지표로 재설계하라

현장에서 자주 본다. 10,000석 라이선스를 결재했고, 모델 정확도 슬라이드가 90%를 넘는다. 그런데 현장은 여전히 수동 처리로 되돌아간다. McKinsey는 기업의 78~88%가 AI를 도입했다고 적었지만 전사 스케일은 23% 수준에 그쳤다. 나머지 2/3가 이른바 pilot purgatory에서 멈춘다. 지표가 잘못됐기 때문이다.

정확도 하나로는 운영 결정을 못 한다

정확도(accuracy/F1)는 모델 품질의 단면이다. 운영은 품질만으로 돌아가지 않는다. 흐름(처리 시간), 손실(재작업률), 위험(탈락률), 비용(단위 업무당 비용)이 함께 맞아야 돌아간다. 정확도만 들고 오면, 운영 임계값과 에스컬레이션 규칙을 설계할 근거가 없다.

정확도나 도입률은 PoC 지표다. 운영으로 가려면 처리 시간, 재작업률, 탈락률, 단위 업무당 비용이 기준이 된다.

운영은 결정의 연속이다. 어떤 경우에 사람에게 넘길지, 어느 수준에서 수동 처리로 전환할지, 배치 규모와 SLA를 어떻게 묶을지. 이 결정을 움직이는 수치는 처리 시간의 분포, human-rework rate, 사용자가 모델 제안을 거부한 비율(탈락률), 그리고 단위 업무당 비용이다. 이 네 가지가 없으면 운영 설계가 멈춘다.

도입률 착시: 라이선스와 로그인은 KPI가 아니다

조직은 종종 "AI 도입"을 Copilot/ChatGPT 라이선스 구매량으로 등치시킨다. 10,000석을 샀는데 주간 활성 사용률(WAU)이 15%면 도입 성공이 아니라 지출 최적화 문제다. 또 "이달 5,000명이 AI를 사용"했다는 숫자도 의미가 없다. 하루 한 번 질문했는지, 핵심 워크플로에 통합했는지, 기능 하나만 눌렀는지 파워유저인지 구분이 없다. 깊이(depth) 지표 없이 사용량 숫자는 착시를 만든다.

도입의 본질은 빈도보다 내재화다. 현장에서 유효한 깊이 지표는 다음과 같은 특성을 가진다.

  • 워크플로 통합 여부와 단계 축소율
  • 자동 완료 비율과 세션당 처리 작업 수
  • 주간 반복사용률과 사람 개입 비중 변화 이 깊이가 보이지 않으면 교육, 기능 개선, 정책 설정의 우선순위를 정할 수 없다.

선행지표 + 비즈니스 KPI, 2축으로 묶어라

McKinsey는 robust, leading KPI가 없는 gen-AI 이니셔티브에서 가치 실현이 낮고 리스크 사고가 높다고 말한다. 반대로 선행지표가 있는 조직은 가치 실현이 오르고 리스크 사고가 떨어진다. KPI는 두 축으로 설계한다. (1) adoption/quality의 선행지표, (2) 비즈니스 KPI다. "AI를 배포한다"가 아니라 매 이니셔티브를 CSAT, conversion, cycle time, EBIT, 고객 유지율과 직접 연결한다.

잘못된 KPI(주로 PoC) 올바른 KPI(운영 기준) 의사결정에 주는 신호
정확도/F1 처리 시간, 재작업률, 탈락률, 단위 업무당 비용 운영 임계값, 에스컬레이션, 배치 규모 결정
라이선스 수, WAU/MAU 단순 집계 워크플로 통합 깊이(자동완료율, 세션당 작업 수, 주간 반복사용률) 교육·기능개선·정책 우선순위 설정
모델 출시/PoC 개수 비즈니스 KPI 연동(CSAT, conversion, cycle time, EBIT, 고객 유지율) 투자 대비 성과, 계속·중단 판단
파일럿 성공률 운영 규칙 준수율과 예외 처리 안정성 리스크 통제와 품질 보증 수준

BCG의 10-20-70 원칙은 방향을 더 분명히 한다. AI 성공의 10%는 알고리즘, 20%는 데이터·기술, 70%는 사람·프로세스·문화 전환이다. 정확도에 집착하는 순간 10%에 모든 관심을 쏟고, 70%의 운영 전환 지표를 버리게 된다.

운영으로 넘기는 AX Ops 루틴

이제 KPI를 바꿔야 한다. 복잡하게 갈 필요 없다. 다음 순서를 90일 루틴으로 굴리면 된다.

  • 시작할 때 비즈니스 KPI 하나를 고정하고 기준선과 목표를 명시한다.
  • 선행지표를 3개 이내로 정의하고, 운영적 정의(분자·분모·측정 주기)를 문서화한다.
  • 계측 설계부터 착수한다. 로그·태깅·샘플링·재현 데이터 파이프를 먼저 깐다.
  • 주별 리뷰에서 선행지표로 실험을 조정하고, 월별 리뷰에서 비즈니스 KPI로 계속·중단을 결정한다.
  • 임계값·에스컬레이션 규칙·HITL 책임 구간을 명문화하고, 예외 리포트를 자동화한다.

정확도와 도입률에서 벗어나 선행지표와 비즈니스 KPI의 2축으로 재설계하면, 파일럿은 멈추고 운영이 돈을 번다. 시작은 KPI 리라이트다. AX Ops 방법론 →

참고