현장에서 에이전트 회의를 보면 같은 말을 쓰면서 다른 그림을 보고 있다. 누군가는 agent를 챗봇의 고급형으로 말하고, 누군가는 tool calling 묶음으로 말한다. 운영팀은 권한과 로그를 묻고, 개발팀은 모델 성능을 답한다. 이 간극이 PoC 이후의 첫 장애다.
에이전트는 모델이 아니라 실행 구조다
에이전트 개발자가 먼저 맞춰야 할 것은 용어다. 용어는 문서 장식이 아니다. 설계 경계, 책임 범위, 장애 원인을 가르는 운영 언어다.
| 용어 | 현장 정의 | 설계 질문 |
|---|---|---|
| Agent loop | 목표를 받고 판단, 도구 사용, 관찰, 다음 행동을 반복하는 실행 루프 | 어디서 멈추고 누가 승인하는가 |
| Harness engineering | 모델 밖에서 루프, 파일, 도구, 샌드박스, 권한을 묶는 실행 골격 설계 | 모델 교체와 무관하게 남는 구조는 무엇인가 |
| Context engineering | 필요한 지시, 데이터, 상태를 적절한 시점에 넣고 오염을 줄이는 기술 | 지금 넣는 정보가 판단을 돕는가 방해하는가 |
| Memory | 세션 밖으로 보존되는 사실, 선호, 작업 이력, 규칙 | 무엇을 저장하고 무엇을 잊을 것인가 |
| Tool calling | 모델이 외부 함수, API, 시스템 작업을 호출하는 방식 | 호출 권한과 실패 처리는 어디에 있는가 |
| Structured Outputs | 출력 형식을 JSON Schema 등으로 고정하는 방식 | 다음 시스템이 믿고 받을 수 있는가 |
| MCP | agent와 도구·데이터 소스를 연결하는 표준 인터페이스 | 내부 시스템을 어떤 계약으로 노출할 것인가 |
| A2A | agent 간 발견, 메시지, 작업 위임을 위한 통신 프로토콜 | 여러 agent가 같은 업무를 어떻게 나눌 것인가 |
| Hooks | 실행 전후에 허용, 차단, 수정, 로그를 끼워 넣는 제어점 | 위험 행동을 어느 지점에서 막을 것인가 |
| Evals/Tracing | 실행 결과와 중간 과정을 평가하고 추적하는 체계 | 실패를 재현하고 개선할 증거가 남는가 |
에이전트 품질은 프롬프트 문장보다 실행 경계에서 갈린다.
OpenAI는 2026년 Agents SDK 업데이트에서 agent loop를 다루는 “model-native harness”와 안전한 sandbox 실행을 강조했다. Anthropic은 context engineering을 prompt engineering의 자연스러운 진화로 설명하며, 큰 context window만으로는 오염과 관련성 문제가 사라지지 않는다고 정리했다. 이 두 문장은 같은 방향을 가리킨다. 에이전트는 모델 호출 코드가 아니라 실행 환경이다. (openai.com)
연결 표준은 편의가 아니라 책임 경계다
MCP와 A2A를 단순 연동 기술로 보면 설계가 얕아진다. MCP는 agent가 외부 도구와 데이터에 접근하는 계약이다. A2A는 agent끼리 업무를 주고받는 계약이다. 하나는 agent-to-tool, 다른 하나는 agent-to-agent의 문제다.
2025년 12월 Anthropic은 MCP를 Linux Foundation 산하 Agentic AI Foundation에 기부한다고 발표했다. Linux Foundation은 2026년 4월 A2A가 agent 상호운용성을 위한 production-ready open standard로 진전됐다고 밝혔다. 표준 논의가 빠르게 이동했다는 뜻이지, 현장 적용이 자동으로 안전해졌다는 뜻은 아니다. (anthropic.com)
그래서 내부 시스템을 MCP로 열 때는 세 가지를 먼저 정한다.
- agent가 읽을 수 있는 데이터와 실행할 수 있는 작업을 분리한다.
- tool 호출마다 주체, 목적, 입력, 결과를 로그로 남긴다.
- 실패 시 재시도, 중단, 사람 승인 경로를 명시한다.
출력 형식과 추적 없이는 운영이 없다
Structured Outputs는 보기 좋은 JSON을 만드는 기능이 아니다. 다음 시스템이 출력을 계약으로 받아도 되는지 결정하는 장치다. OpenAI 문서는 strict: true 설정 시 함수 호출 인자가 제공된 JSON Schema와 일치하도록 보장한다고 설명한다. 이 기능을 쓰지 않으면 검증, 재시도, 예외 처리를 별도로 설계해야 한다. (help.openai.com)
Tracing도 같은 맥락이다. OpenAI Agents SDK 문서는 tracing이 LLM generation, tool call, handoff, guardrail, custom event를 기록한다고 설명한다. Anthropic Claude Code의 hooks 문서는 callback이 작업을 허용, 차단, 수정하거나 context를 주입할 수 있다고 정리한다. 이것이 있어야 장애가 “모델이 이상했다”에서 “어느 도구 호출과 어느 context 조합이 실패했다”로 바뀐다. (openai.github.io)
참고
- OpenAI, The next evolution of the Agents SDK, 2026: https://openai.com/index/the-next-evolution-of-the-agents-sdk/
- Anthropic, Effective context engineering for AI agents, 2025: https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
- Anthropic, Donating the Model Context Protocol and establishing the Agentic AI Foundation, 2025: https://www.anthropic.com/news/donating-the-model-context-protocol-and-establishing-of-the-agentic-ai-foundation
- Linux Foundation, A2A Protocol update, 2026: https://www.linuxfoundation.org/press/a2a-protocol-surpasses-150-organizations-lands-in-major-cloud-platforms-and-sees-enterprise-production-use-in-first-year
- OpenAI Help Center, Function Calling and Structured Outputs, 2026 확인: https://help.openai.com/en/articles/8555517
- OpenAI Agents SDK, Tracing, 2026 확인: https://openai.github.io/openai-agents-js/guides/tracing
- Anthropic Claude Agent SDK, Hooks, 2026 확인: https://code.claude.com/docs/en/agent-sdk/hooks
용어장은 운영 규칙으로 바뀌어야 한다
이 10가지는 암기 목록이 아니다. 각 용어는 설계 산출물로 바뀌어야 한다. agent loop는 상태도, harness는 실행 아키텍처, context engineering은 주입 정책, memory는 보존 정책, tool calling은 권한 매트릭스, Structured Outputs는 인터페이스 계약, MCP와 A2A는 연동 표준, hooks는 통제점, evals와 tracing은 운영 대시보드가 된다.
AX LABS가 보는 에이전트 설계의 기준도 같다. 데모가 아니라 반복 운영을 기준으로 용어를 정의하고, 그 정의를 코드와 권한과 평가에 박아 넣는다. 다음 단계는 용어 교육이 아니라 실행 구조 설계다. 구체적인 접근은 AX Ops 방법론 →에서 이어진다.
