← 블로그 사례 기록

에이전트팀은 수업으로 안 큰다

8주는 기능보다 운영 근육을 남겨야 한다

AX LABS 2026.06.08 4분 읽기

사내 에이전트 개발팀 교육을 시작하면 첫 주 분위기는 대체로 좋다. 프롬프트도 만들고, API도 붙이고, 화면도 빨리 나온다. 문제는 셋째 주부터 드러난다. 현업 요청은 모호하고, 사내 데이터 권한은 끊겨 있고, 도구 호출은 실패하고, 성공 기준은 합의돼 있지 않다. 이때 강의식 교육은 힘을 잃는다.

8주의 목표는 앱이 아니라 루프다

PBL을 쓴 이유는 단순하다. 에이전트 개발은 지식을 많이 아는 사람이 아니라, 모호한 업무를 실행 가능한 실험으로 쪼개는 팀이 이긴다.

그래서 8주는 커리큘럼이 아니라 반복 루프로 설계한다. 매주 같은 질문을 돌린다. 어떤 업무를 줄일 것인가. 어떤 데이터를 읽을 것인가. 어떤 도구를 호출할 것인가. 실패하면 누가 이어받을 것인가. 운영에 올리지 않을 이유는 무엇인가.

구간	산출물	남겨야 할 습관
1~2주	업무 문제 정의서, 사용자 시나리오	요청을 기능이 아니라 업무 흐름으로 번역한다
3~4주	최소 에이전트, 도구 호출 로그	답변 품질보다 실행 경로를 먼저 본다
5~6주	평가 세트, 실패 케이스	성공 데모보다 반복 실패를 기록한다
7~8주	배포 판단표, 운영 인수 문서	개발 완료와 운영 가능을 분리한다

8주가 끝났을 때 남아야 하는 것은 멋진 데모가 아니다. 다음 현업 요청을 받았을 때 다시 같은 방식으로 착수하는 팀의 리듬이다.

에이전트 개발은 하네스 설계에서 갈린다

최근 12개월 동안 에이전트 개발 도구의 방향은 분명해졌다. 모델 하나를 잘 부르는 문제가 아니라, context, tool, memory, 권한, 로그, 평가를 묶는 하네스의 문제로 이동했다.

Anthropic은 2025년 10월 Claude Code plugins에서 slash commands, subagents, MCP servers, hooks를 한 번에 배포 가능한 구성 단위로 설명했다. 같은 달 공개한 Skills도 지시문, 스크립트, 리소스를 폴더 단위로 묶어 필요한 순간만 불러오는 방식이다. OpenAI도 2026년 4월 Agents SDK의 다음 진화에서 파일과 도구를 다루는 model-native harness와 sandbox execution을 강조했다. Google Cloud는 2025년 7월 A2A protocol 0.3과 ADK 연동을 발표하며 에이전트 간 상호운용을 배포와 평가의 문제로 다뤘다.

이 흐름을 8주 PBL에 그대로 반영한다. 교육 주제를 “프롬프트 잘 쓰기”로 잡지 않는다. 팀이 직접 다음 네 가지를 설계하게 한다.

context: 어떤 업무 지식이 매번 들어가야 하는가
tool: 어떤 사내 시스템을 읽고, 어디까지 쓸 수 있는가
guardrail: 어떤 요청은 거절하고, 어떤 요청은 사람에게 넘기는가
trace: 실패 원인을 나중에 다시 볼 수 있는가

에이전트팀의 실력은 모델 호출 코드가 아니라, 실패를 재현하는 하네스에서 드러난다.

평가는 데모 전날이 아니라 매주 한다

현장에서 가장 위험한 착각은 “마지막에 평가하자”는 말이다. 에이전트는 마지막에 평가하면 이미 늦다. 처음부터 평가 세트를 같이 키워야 한다.

1주차에는 정답보다 금지 행동을 먼저 적는다. 2주차에는 정상 시나리오와 예외 시나리오를 나눈다. 3주차부터는 도구 호출 로그를 리뷰한다. 5주차에는 현업 검토를 받되, 만족도 질문을 하지 않는다. 대신 “이 결과를 그대로 업무에 쓰면 어떤 사고가 나는가”를 묻는다.

평가표도 복잡하게 시작하지 않는다. 세 칸이면 충분하다. 업무 의도를 맞혔는가. 필요한 근거를 사용했는가. 실패 시 안전하게 멈췄는가. 이 세 질문을 매주 반복하면 팀은 자연스럽게 데모용 답변과 운영 가능한 답변을 구분한다.

참고는 운영 기준으로 읽어야 한다

이 8주의 핵심은 학습 속도가 아니다. 운영 언어를 초기에 심는 것이다. 에이전트 개발팀은 교육생이 아니라 곧 운영자가 된다. 그래서 PBL의 문제는 교재 속 문제가 아니라 실제 조직의 승인, 권한, 로그, 인수인계 문제여야 한다.

참고한 최근 12개월 내 1차 출처는 아래와 같다.

Anthropic, “Customize Claude Code with plugins”, 2025년 10월: https://www.anthropic.com/news/claude-code-plugins
Anthropic, “Introducing Agent Skills”, 2025년 10월: https://www.anthropic.com/news/skills
Anthropic, “Claude Code Advanced Patterns”, 2026년 3월: https://www.anthropic.com/webinars/claude-code-advanced-patterns
OpenAI, “The next evolution of the Agents SDK”, 2026년 4월: https://openai.com/index/the-next-evolution-of-the-agents-sdk
OpenAI API Docs, “Connectors and MCP servers”, 2026년 기준 문서: https://platform.openai.com/docs/guides/tools-remote-mcp
Google Cloud, “Agent2Agent protocol is getting an upgrade”, 2025년 7월: https://cloud.google.com/blog/products/ai-machine-learning/agent2agent-protocol-is-getting-an-upgrade

8주를 교육 과정으로 끝내지 않고 운영 체계로 넘기려면, 개발 과제와 현업 인수 기준을 한 설계 안에 묶어야 한다. AX Ops 방법론 →

에이전트팀은 수업으로 안 큰다

8주의 목표는 앱이 아니라 루프다

에이전트 개발은 하네스 설계에서 갈린다

평가는 데모 전날이 아니라 매주 한다

참고는 운영 기준으로 읽어야 한다

함께 읽으면 좋은 글

비용 초과는 장애다

MCP 첫 연결은 끝이 아니었다

첫 에이전트는 운영에서 깨졌다