현장에서 AI 인프라 논의가 시작되면 아직도 첫 질문은 비슷하다. GPU를 얼마나 잡을 수 있는가. 어느 클라우드가 더 빠른가. 어떤 모델이 더 싸게 나오는가.
그 질문만으로는 2026년 결정을 할 수 없다. 이미 시장은 학습 중심의 실험 인프라에서 추론·에이전트 중심의 운영 인프라로 이동했다. Google은 2026년 Cloud Next에서 TPU 8t와 8i를 학습과 추론 목적에 맞춰 분리해 발표했고, NVIDIA는 Vera Rubin을 agentic AI를 위한 AI factory 플랫폼으로 내세웠다. OpenAI도 Stargate를 장기 컴퓨트 기반으로 설명하며 2029년까지 미국 내 10GW AI 인프라 확보를 언급했다. (blog.google)
인프라 투자는 모델 선택이 아니라 업무량 선택이다
2024년식 질문은 “어떤 모델을 쓸 것인가”였다. 2026년식 질문은 “어떤 업무량을 계속 돌릴 것인가”다.
AI 에이전트는 한 번 답하고 끝나지 않는다. 검색하고, 도구를 호출하고, 권한을 확인하고, 실패하면 재시도한다. 같은 사용자 요청도 내부적으로는 여러 번의 추론, 메모리 조회, API 호출, 로그 기록으로 쪼개진다. 그래서 인프라 비용은 토큰 단가가 아니라 업무 흐름의 반복 비용으로 봐야 한다.
Gartner는 2025년 10월 AI-optimized IaaS를 AI 인프라의 성장축으로 설명하며 GPU, TPU, AI ASIC, 고속 네트워크, 최적화 스토리지의 결합을 강조했다. Deloitte도 2026년에는 inference workload가 AI 컴퓨트 논의의 중심이 된다고 봤다. (gartner.com)
2026년 AI 인프라 투자의 핵심은 더 강한 장비가 아니라, 반복되는 업무를 견디는 운영 구조다.
새 기준은 네 가지로 압축된다
투자 심의서가 여전히 “모델 성능”과 “클라우드 비용”만 비교한다면 빠진 항목이 있다. AX 관점의 인프라 기준은 다음 네 가지다.
| 기준 | 과거 질문 | 2026년 질문 |
|---|---|---|
| 처리량 | 초당 토큰이 얼마인가 | 업무 완료당 비용이 얼마인가 |
| 지연 | 응답이 빠른가 | 다단계 에이전트 흐름이 끊기지 않는가 |
| 통제 | 보안 설정이 가능한가 | 데이터·권한·로그를 업무 단위로 추적하는가 |
| 전환성 | 벤더를 바꿀 수 있는가 | 모델·툴·메모리·평가를 분리해 교체하는가 |
이 표의 핵심은 통제력이다. 특정 GPU 세대, 특정 모델, 특정 클라우드가 항상 답이 되지 않는다. NVIDIA Rubin, Google TPU 8t·8i, AWS Trainium3처럼 공급자들은 각자 “agentic”, “inference”, “token economics”를 말한다. 이는 같은 방향을 가리킨다. 인프라 경쟁은 칩 단위가 아니라 워크로드 단위로 재편되고 있다. (investor.nvidia.com)
전력과 냉각은 IT 밖의 병목이다
AI 인프라 투자는 더 이상 CIO 예산 안에서만 닫히지 않는다. 데이터센터 입지, 전력 조달, 냉각, 네트워크, 규제 대응이 한 묶음이 됐다.
IEA는 AI와 데이터센터 전력 수요를 별도 의제로 다루며, 데이터센터는 빠르게 지을 수 있어도 전력 계통은 더 긴 계획과 투자 시간을 요구한다고 설명한다. McKinsey도 AI 데이터센터의 병목을 컴퓨트 밖의 전력·냉각 인프라로 확장해 다룬다. (iea.org)
대기업이 여기서 놓치는 지점이 있다. “우리는 직접 데이터센터를 짓지 않는다”는 말은 면책이 아니다. 클라우드로 쓰더라도 지연, 리전, 가용량, 가격, 규제, 장애 대응은 결국 사업부의 SLA로 돌아온다. 인프라를 외주화해도 운영 책임은 사라지지 않는다.
참고와 다음 결정
2026년 투자 결정은 한 줄로 정리된다. AI 인프라는 구매 품목이 아니라 운영권의 설계다. 모델, 칩, 클라우드, 전력, 보안, 평가를 따로 검토하면 비용은 커지고 책임은 흩어진다.
참고한 최근 12개월 이내 주요 출처는 다음과 같다.
- OpenAI, “Building the compute infrastructure for the Intelligence Age”, 2026: https://openai.com/index/building-the-compute-infrastructure-for-the-intelligence-age
- NVIDIA, “NVIDIA Vera Rubin Opens Agentic AI Frontier”, 2026: https://nvidianews.nvidia.com/news/nvidia-vera-rubin-platform
- Google, “Our eighth generation TPUs: two chips for the agentic era”, 2026: https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era
- AWS Trainium 공식 페이지, Trainium3 설명, 2026 확인: https://aws.amazon.com/machine-learning/trainium/
- Gartner, “AI-Optimized IaaS… AI Infrastructure”, 2025: https://www.gartner.com/en/newsroom/press-releases/2025-10-15-gartner-says-artificial-intelligence-optimized-iaas-is-poised-to-become-the-next-growth-engine-for-artificial-intelligence-infrastructure
- IEA, “Energy demand from AI”, 2025: https://www.iea.org/reports/energy-and-ai/energy-demand-from-ai
AX LABS는 이 결정을 장비 비교표가 아니라 업무량, 통제권, 운영 지표의 문제로 다룬다. 다음 인프라 투자 심의 전에 AX Ops 기준으로 워크로드부터 다시 정의해야 한다. 사업 영역 →
