에이전트 데모에서는 기억이 눈에 띈다. 지난 대화를 알아보고, 사용자 선호를 반영하고, 같은 설명을 반복하지 않는다. 그런데 운영에 들어가면 다른 장면이 나온다. 틀린 요약이 장기 메모리에 남고, 과거 예외 처리가 표준처럼 회상되고, 에이전트가 스스로 만든 추론을 사실처럼 다시 읽는다. 이때 문제는 검색 성능이 아니다. 기억의 생애주기가 관리되지 않은 것이다.
회상 평가는 답변이 아니라 경로를 본다
메모리 품질을 최종 답변만으로 평가하면 실패 원인을 놓친다. 답은 맞았지만 엉뚱한 기억을 읽었을 수 있다. 반대로 필요한 기억은 검색됐지만 context에 들어가는 과정에서 잘렸을 수 있다.
MemoryAgentBench는 메모리 에이전트 평가를 accurate retrieval, test-time learning, long-range understanding, selective forgetting으로 나눈다. 이 구분이 실무에서도 맞다. 기업 업무 에이전트는 기억을 많이 꺼내는 시스템이 아니라, 상황에 맞는 기억만 꺼내고 낡은 기억을 버리는 시스템이다. (arxiv.org)
| 평가 지점 | 봐야 할 질문 | 실패 신호 |
|---|---|---|
| 검색 | 필요한 기억이 후보에 들어왔는가 | 유사하지만 다른 업무 맥락 회상 |
| 주입 | 후보 기억이 prompt/context에 올바르게 들어갔는가 | 관련 기억 누락, 과다 주입 |
| 사용 | 답변·도구 호출에 기억이 적절히 반영됐는가 | 기억은 읽었지만 행동이 바뀌지 않음 |
| 갱신 | 실행 후 어떤 기억이 쓰이고 삭제됐는가 | 중복, 자기출력 재저장, 충돌 방치 |
메모리 디버깅의 단위는 토큰이 아니라 기억 항목의 생애주기다.
오염은 쓰기 단계에서 시작된다
현장에서 가장 위험한 오염은 외부 공격보다 조용한 내부 재순환이다. 에이전트가 임시 추론을 요약하고, 그 요약을 장기 메모리에 쓰고, 다음 실행에서 다시 근거로 삼는다. 몇 번 반복되면 출처 없는 업무 규칙이 생긴다.
NIST CAISI는 2025년 agent evaluation에서 solution contamination과 grader gaming을 별도 위험으로 정리했다. 평가 데이터에 답이 새어 들어가거나, 채점 기준의 빈틈을 이용하면 점수는 올라가도 실제 역량은 측정되지 않는다. 메모리 평가도 같다. 테스트 세트의 정답, 운영 로그의 민감한 예외, 에이전트가 만든 가짜 성공 패턴이 장기 저장소에 들어가면 회상 품질 평가는 무너진다. (nist.gov)
쓰기 단계에는 최소 세 개의 문이 필요하다.
- 원천 검증: 사용자 발화, 시스템 기록, 에이전트 추론을 구분한다.
- 승격 기준: 단발 대화와 반복 업무 규칙을 분리한다.
- 충돌 처리: 새 기억이 기존 기억을 대체하는지, 병존하는지, 폐기하는지 기록한다.
드리프트는 평균 점수 뒤에 숨는다
드리프트는 한 번에 무너지지 않는다. 회상 후보가 조금씩 넓어지고, 오래된 예외가 자주 올라오고, 특정 사용자나 업무 유형에서만 틀어진다. 평균 recall 하나로는 잡히지 않는다.
그래서 AX Ops에서는 메모리 평가를 네 가지 리플레이로 묶는다. 첫째, 동일 입력을 빈 메모리와 실제 메모리에서 나눠 실행한다. 둘째, 오염 후보 기억을 넣고 행동 변화만 본다. 셋째, 시간 순서를 바꿔 낡은 기억이 최신 지시를 이기는지 본다. 넷째, canary memory를 심어 권한 밖 회상이 발생하는지 확인한다.
Microsoft Research의 AgentRx는 실패한 agent trajectory에서 첫 번째 회복 불가능한 실패 단계를 찾는 접근을 제시했다. 메모리 디버깅도 같은 관점이 필요하다. 틀린 답이 아니라, 어느 기억이 검색되고 어느 제약을 통과하면서 실패가 확정됐는지를 찾아야 한다. (microsoft.com)
OpenAI의 trace grading과 LangChain의 deep agent eval 논의도 같은 방향을 가리킨다. 최종 응답만 보지 말고 trace, tool call, state, memory update를 함께 평가해야 한다. (platform.openai.com)
참고
- Hu et al., Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions, 2025/2026: https://arxiv.org/abs/2507.05257
- NIST CAISI, Cheating On AI Agent Evaluations, 2025: https://www.nist.gov/blogs/caisi-research-blog/cheating-ai-agent-evaluations
- Microsoft Research, AgentRx framework, 2026: https://www.microsoft.com/en-us/research/blog/systematic-debugging-for-ai-agents-introducing-the-agentrx-framework/
- OpenAI, Trace grading docs, 2026 확인: https://developers.openai.com/api/docs/guides/trace-grading
- LangChain, Evaluating Deep Agents: Our Learnings, 2025: https://www.langchain.com/blog/evaluating-deep-agents-our-learnings
- Microsoft Foundry, Memory in Foundry Agent Service, 2025: https://devblogs.microsoft.com/foundry/introducing-memory-in-foundry-agent-service/
정리하면, 메모리는 기능이 아니라 운영 대상이다. 쓰기·검색·주입·사용·갱신을 trace로 남기고, 오염과 드리프트를 정기 평가에 넣어야 한다. 이 루틴을 설계하지 않으면 메모리는 개인화 자산이 아니라 조용한 부채가 된다. AX LABS는 이 평가 루틴을 AX Ops 안에 넣어 운영 전환까지 설계한다: AX Ops 방법론 →
