AI / 테크 비용 계산기
API 토큰 비용 · GPU 클라우드 · SaaS vs 자체구축 · LLM 비교 · 인프라 예측
모델별 입력/출력 토큰 가격이 다릅니다. 한국어 1글자 ≈ 2~3 토큰, 영어 1단어 ≈ 1.3 토큰 기준입니다.
동일 GPU(A100 80GB, H100 80GB) 기준으로 AWS, GCP, Azure의 시간당/월간 비용을 비교합니다.
API 기반 SaaS와 자체 GPU 서버 구축 시 월 비용·손익분기점을 비교합니다.
2026년 3월 기준 주요 LLM 모델의 가격, 컨텍스트 윈도우, 벤치마크 점수를 한눈에 비교합니다.
| 모델 | 입력 ($/1M 토큰) |
출력 ($/1M 토큰) |
컨텍스트 | 코딩 | 추론 |
|---|---|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 200K | 95 | 96 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K | 92 | 90 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | 82 | 80 |
| GPT-4o | $2.50 | $10.00 | 128K | 88 | 88 |
| GPT-4o-mini | $0.15 | $0.60 | 128K | 78 | 75 |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M | 87 | 92 |
| Gemini 2.0 Flash | $0.10 | $0.40 | 1M | 75 | 72 |
AI 서비스 운영에 필요한 주요 인프라 항목별 예상 비용을 합산합니다.
AI 서비스 비용, 얼마나 들까?
LLM API 비용의 핵심 – 토큰이란?
LLM(대형 언어 모델)은 텍스트를 토큰 단위로 처리합니다. 한국어 1글자는 약 2~3 토큰, 영어 1단어는 약 1.3 토큰입니다. API 비용은 입력 토큰과 출력 토큰에 각각 다른 가격이 적용되며, 출력 토큰이 보통 3~5배 비쌉니다. 예를 들어 Claude Sonnet 4 기준, 1,000회 요청에 평균 500 입력 + 300 출력 토큰이면 일 비용은 약 $6 수준입니다.
GPU 클라우드 – 학습 vs 추론
모델 학습(Training)에는 A100/H100급 고성능 GPU가 필요하며, 시간당 $3~5입니다. 추론(Inference)에는 L4, T4 같은 저비용 GPU로 충분한 경우가 많습니다. 스팟 인스턴스를 활용하면 온디맨드 대비 60~70% 절감 가능하지만, 중단 리스크가 있으므로 체크포인트 저장 전략이 필수입니다.
SaaS vs 자체구축, 손익분기점은?
월 API 호출이 10만 회 미만이면 대부분 SaaS(API 호출 방식)가 유리합니다. 자체 구축은 GPU 서버 비용 + DevOps 인건비 + 유지보수 비용이 고정적으로 들기 때문입니다. 그러나 월 100만 회 이상, 또는 커스텀 파인튜닝 모델이 필요한 경우 자체 구축의 단가가 빠르게 낮아집니다.
비용 최적화 핵심 팁
- 프롬프트 캐싱: 동일 시스템 프롬프트에 대해 캐싱 할인 적용 (Claude: 90% 할인)
- 배치 API: 실시간 응답이 불필요한 작업은 배치 API로 50% 절감
- 모델 라우팅: 간단한 작업은 저가 모델, 복잡한 작업만 고가 모델 사용
- 토큰 최적화: 프롬프트 길이 줄이기, 불필요한 컨텍스트 제거
- 예약 인스턴스: GPU 클라우드 1년 예약 시 30~40% 할인