AX LABS
← 블로그 AX 전략

에이전트 ROI는 시간표가 아니다

절감 시간보다 흐름 손실을 먼저 본다

임원 보고서에는 에이전트가 만든 초안 수, 응답 시간 단축, 사용자 만족도가 먼저 올라온다. 현장 리더는 그 다음 장표에서 말을 멈춘다. 초안은 늘었는데 결재 대기열은 그대로다. 답변은 빨라졌는데 검수자는 더 바쁘다. PoC에서는 시간이 줄었는데 월말 실적에는 흔적이 약하다.

최근 자료도 같은 신호를 낸다. NBER의 2026년 Working Paper는 4개국 기업 임원 약 6,000명을 조사해, AI를 쓰는 기업은 많지만 지난 3년간 고용이나 생산성에 영향이 없다고 답한 기업이 80%를 넘었다고 보고했다. 평균 사용 시간도 주당 1.5시간에 그쳤다. https://www.nber.org/papers/w34836 (nber.org) McKinsey의 2025년 글로벌 조사도 AI 사용은 88%까지 넓어졌지만, 엔터프라이즈 EBIT 영향을 보고한 응답은 39%에 머물렀고, 에이전트를 특정 기능에서 스케일링하는 비율은 대부분 낮았다. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai (mckinsey.com)

시간 절감은 ROI가 아니라 원재료다

가장 흔한 오류는 “한 건당 20분 절감”을 그대로 ROI로 환산하는 방식이다. 이 계산은 현장에서 거의 맞지 않는다. 절감된 시간이 매출, 처리량, 비용 회피로 전환되는 경로가 빠져 있기 때문이다.

에이전트가 초안을 빨리 만들면 개인의 입력 시간은 줄어든다. 그러나 조직의 산출물은 초안이 아니라 승인된 결과물이다. 승인까지 검토, 수정, 반려, 재요청, 시스템 입력, 감사 로그가 붙는다. 이 흐름이 줄지 않으면 ROI는 생기지 않는다.

에이전트 ROI는 ‘사람이 덜 일한 시간’이 아니라 ‘업무 흐름에서 실제로 제거된 병목’으로 측정해야 한다.

Stanford HAI의 2026 AI Index는 에이전트 벤치마크 성능이 빠르게 개선됐지만 실제 컴퓨터 작업 벤치마크에서는 여전히 실패가 남아 있다고 정리한다. 기술 성능의 개선과 운영 성과는 같은 말이 아니다. https://hai.stanford.edu/ai-index/2026-ai-index-report (hai.stanford.edu)

생산성 지표는 산출물이 아니라 마찰을 봐야 한다

에이전트 도입 후 지표판이 더 화려해지는 조직일수록 조심해야 한다. 많은 지표가 ‘일이 생겼다’는 사실만 보여주고 ‘일이 끝났다’는 사실은 보여주지 않는다.

잘못 읽는 지표 현장에서 다시 봐야 할 지표
생성된 초안 수 승인된 산출물 수
평균 응답 시간 업무 완료 리드타임
사용자 프롬프트 수 재작업·반려 건수
자동화 실행 횟수 예외 처리 backlog
모델 정확도 1차 통과율과 감사 가능성

특히 에이전트는 단순 챗봇보다 운영 마찰을 더 많이 만든다. tool 호출, 권한, memory, context, human-in-the-loop, 에스컬레이션이 붙는다. 이 구조를 보지 않고 “응답이 빨라졌다”고 말하면 생산성을 잘못 읽는다.

OpenAI가 2025년 AgentKit에서 datasets, trace grading, automated prompt optimization 같은 평가 기능을 전면에 둔 이유도 여기에 있다. 운영 에이전트는 최종 답변만 평가해서는 안 된다. 의사결정 경로와 tool 사용 흔적을 trace로 봐야 한다. https://openai.com/index/introducing-agentkit/ (openai.com)

ROI 산식은 업무 단위로 다시 짜야 한다

AX Ops에서 에이전트 ROI는 세 층으로 본다. 첫째, 사용률이다. 둘째, 순완료율이다. 셋째, 재무 전환율이다. 사용률만 높으면 비용이 늘고, 순완료율만 높으면 현장 효율에 머문다. 재무 전환율까지 연결돼야 투자 판단이 가능하다.

측정 설계는 단순해야 한다.

  1. 에이전트가 끝내야 할 업무 단위를 먼저 정의한다.
  2. “완료”의 기준을 승인, 발송, 회수, 정산처럼 시스템 이벤트로 고정한다.
  3. 재작업, 에스컬레이션, 검수 시간, tool 비용을 같은 장표에 올린다.
  4. 도입 전후가 아니라 파일럿군과 비교군을 같은 기간에 본다.
  5. 월별 평균보다 예외 케이스의 꼬리를 본다.

MIT NANDA의 2025년 The GenAI Divide 보고서도 개인 도구의 확산과 P&L 영향 사이의 간극을 지적한다. 숫자를 그대로 가져오기보다 핵심을 읽어야 한다. AI 도입의 실패는 모델 부재보다 업무 통합 부재에서 반복된다. https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf (mlq.ai)

참고와 다음 행동은 함께 놓아야 한다

에이전트 ROI 측정의 출발점은 더 많은 지표가 아니다. 업무 흐름을 끊어서 측정하는 버릇을 버리는 것이다. 개인 생산성, 팀 처리량, 재무 성과를 한 장의 운영 지표로 연결해야 한다. 그 연결 설계가 없으면 에이전트는 빠른 초안 생성기에 머문다. AX LABS는 이 연결을 전략, 운영, 내재화까지 한 사이클로 설계한다. AX Ops 방법론 →