결론부터 말하면, 어떤 클라우드를 쓰느냐에 따라 동일한 작업의 비용이 3~5배 차이납니다. A100 서버 기준 AWS는 시간당 약 $4.10, Lambda Labs는 $1.99입니다. 같은 GPU인데 두 배 넘게 차이가 납니다.
스타트업이면 크레딧 프로그램을 먼저 확인해야 하고, 개인 연구자라면 Vast.ai가 압도적으로 저렴합니다. 어떤 경우에 어떤 플랫폼이 맞는지 비용 수치로 정리했습니다.
같은 A100인데 벤더마다 가격이 이렇게 다르다
| 클라우드 | GPU | 시간당 비용 | 특징 |
|---|---|---|---|
| AWS (p4d.24xlarge) | A100 x8 | $32.77 (약 8대) | 안정적, 생태계 풍부 |
| GCP (a2-highgpu-1g) | A100 x1 | $3.67 | TPU 옵션, 유연한 과금 |
| Azure (NC A100 v4) | A100 x1 | $3.40 | MS 서비스 연동 |
| Lambda Labs | A100 x1 | $1.99 | AI 특화, 저렴 |
| Vast.ai | A100 x1 | $0.90~$2.50 | 개인 GPU 마켓플레이스 |
Lambda Labs나 Vast.ai 같은 AI 특화 플랫폼은 AWS/GCP 대비 50~70% 저렴합니다. 단, 엔터프라이즈 지원이 약합니다.
이 용도면 이 플랫폼이 정답이다
| 용도 | 추천 | 이유 |
|---|---|---|
| 개인 연구·실험 | Vast.ai, Lambda Labs | 저렴한 시간당 비용 |
| 스타트업 프로토타입 | GCP, Lambda Labs | 크레딧 프로그램 활용 |
| 기업 프로덕션 | AWS, Azure | SLA, 보안, 지원 |
| 장기 학습 (수백 시간) | 예약 인스턴스 | 최대 72% 할인 |
비용 절감 전략
- 스팟 인스턴스: AWS Spot, GCP Preemptible로 70%까지 절감 (중단 가능성 있음)
- 예약 인스턴스: 1~3년 약정 시 최대 72% 할인
- 혼합 정밀도 학습: FP16/BF16 사용으로 메모리 절반, 속도 2배
- Gradient Checkpointing: 메모리 절약으로 더 큰 배치 사용
- 스타트업 크레딧: AWS, GCP, Azure 모두 스타트업 프로그램 운영
국내 클라우드 옵션
- 네이버 클라우드: GPU 서버 지원, 국내 데이터 규정 준수
- KT Cloud: GPU 인스턴스 제공
- 카카오 클라우드: AI 특화 서비스 확장 중
국내 서비스는 글로벌 대비 비싸지만, 개인정보보호법·데이터 국내 보관 필요 시 유리합니다.
H100 vs A100 비용 대비 성능 비교
2026년 기준, NVIDIA H100은 A100 대비 학습 성능이 약 2~3배 향상되었습니다. 하지만 시간당 가격도 1.5~2배 높아, 실제 비용 효율은 워크로드 특성에 따라 다릅니다.
| GPU | 시간당 비용 (Lambda) | LLM 학습 상대 성능 | 비용 대비 성능 |
|---|---|---|---|
| A100 80GB | $1.99 | 1x (기준) | 1x |
| H100 80GB | $3.29 | 약 2.5x | 약 1.5x |
대규모 LLM 파인튜닝이나 학습 시 H100이 총 비용 면에서 유리한 경우가 많습니다. 반면 소규모 실험이나 추론 작업에서는 A100의 가성비가 여전히 좋습니다(NVIDIA 공식 벤치마크 기준).
월 비용 시뮬레이션 - 실제 얼마가 나올까
하루 8시간, 주 5일(월 약 176시간) GPU를 사용한다고 가정할 때 클라우드별 월 예상 비용을 비교합니다.
| 클라우드 | GPU | 온디맨드 월 비용 | 스팟/선점 월 비용 |
|---|---|---|---|
| GCP | A100 x1 | 약 $646 (약 88만원) | 약 $226 (약 31만원) |
| Azure | A100 x1 | 약 $598 (약 82만원) | 약 $239 (약 33만원) |
| Lambda Labs | A100 x1 | 약 $350 (약 48만원) | - |
| Vast.ai | A100 x1 | 약 $158~$440 | - |
환율 1,370원/$ 기준 추정치입니다. Lambda Labs는 스팟 옵션이 없지만 온디맨드 가격 자체가 낮아 월 기준으로도 경쟁력이 있습니다. 사용 시간이 월 400시간을 넘으면 예약 인스턴스나 온프레미스 전환을 검토하는 것이 합리적입니다.
GPU VRAM별 가능한 작업 - 무작정 비싼 걸 고를 필요 없다
GPU 선택에서 가장 중요한 기준은 VRAM(비디오 메모리)입니다. 모델 크기와 배치 사이즈에 따라 필요한 VRAM이 결정되고, 그에 맞는 GPU를 선택해야 불필요한 비용을 줄일 수 있습니다.
| GPU (VRAM) | 추론 가능 모델 | 학습/파인튜닝 가능 모델 | 대표 사용 사례 |
|---|---|---|---|
| T4 (16GB) | 7B 이하 (INT4 양자화) | 1B 이하 | 소규모 추론 API, 데모 |
| L4 (24GB) | 13B 이하 (INT4) | 3B 이하 | 추론 서빙, LoRA 파인튜닝 실험 |
| A100 40GB | 30B 이하 (INT4) | 7B 이하 (FP16) | 중규모 학습, 파인튜닝 |
| A100 80GB | 70B 이하 (INT4) | 13B 이하 (FP16) | LLM 파인튜닝, RAG 시스템 |
| H100 80GB | 70B 이하 (FP16) | 30B 이하 (FP16) | 대규모 학습, 멀티모달 |
| H100 x4 (320GB) | 200B+ (FP16) | 70B 이하 (FP16) | 초대규모 LLM 학습 |
FP16(반정밀도)은 모델 파라미터 1B당 약 2GB VRAM을 사용합니다. INT4 양자화를 적용하면 약 0.5GB/B로 줄어들어 추론 시 4배 큰 모델을 동일 GPU에서 실행할 수 있습니다. LoRA 파인튜닝은 전체 파라미터의 0.1~1%만 학습하므로 풀 파인튜닝 대비 VRAM을 60~80% 절감할 수 있습니다.
상황별 GPU 클라우드 선택 시나리오
같은 GPU 클라우드라도 팀 규모, 사용 기간, 예산에 따라 최적 선택이 완전히 달라집니다. 세 가지 실제 상황을 비교해봤습니다.
시나리오 1: 1인 개발자 D씨 - 사이드 프로젝트 파인튜닝
목적: Llama 3 8B 모델 LoRA 파인튜닝 (자체 데이터 1만 건)
예상 소요: A100 40GB 기준 약 4~6시간
추천: Vast.ai A100 40GB ($0.90/h) = 총 $3.6~$5.4 (약 5,000~7,400원)
Lambda Labs($1.99/h)도 사용 가능. 총 $8~$12 (약 11,000~16,000원)
AWS/GCP는 이 규모에서 과도한 비용 발생 ($15~$22)
소규모 실험은 저가 플랫폼의 가성비가 압도적입니다. 단, Vast.ai는 개인이 제공하는 GPU이므로 데이터 보안에 민감한 프로젝트에는 적합하지 않습니다. 민감 데이터가 포함된 경우 Lambda Labs 이상을 사용하는 것이 안전합니다.
시나리오 2: 스타트업 E팀(5명) - LLM 기반 제품 프로토타입
목적: 13B 모델 파인튜닝 + 추론 API 서빙 (베타 테스트 3개월)
학습: H100 x1, 월 약 80시간 = $263/월
추론 서빙: A100 x1 상시 가동, 월 약 720시간 = $1,433/월 (Lambda 온디맨드)
3개월 총비용: ($263 + $1,433) × 3 = 약 $5,088 (약 697만원)
추천: GCP + 스타트업 크레딧($5,000~$100,000) 활용
스타트업이라면 크레딧 프로그램을 먼저 신청하는 것이 정석입니다. GCP의 Google for Startups Cloud Program은 최대 $100,000 크레딧을 제공하며, 위 3개월 비용을 전액 커버할 수 있습니다. 크레딧이 소진되면 Lambda Labs로 전환해 비용을 절감하는 2단계 전략이 효과적입니다.
시나리오 3: 대학원 연구실 F팀 - 논문용 대규모 학습
목적: 30B 모델 풀 학습 (custom architecture, 약 2주 연속)
필요 GPU: H100 x4 (또는 A100 x8), 약 336시간
Lambda Labs H100 x4: $3.29 × 4 × 336 = 약 $4,422 (약 606만원)
AWS p4d.24xlarge (A100 x8): $32.77 × 336 = 약 $11,011 (약 1,508만원)
차이: 약 900만원
동일 작업에서 플랫폼 선택만으로 900만원 차이가 납니다. 대학·연구기관은 GCP의 Research Credits 프로그램이나 NVIDIA Academic Program을 통해 무료 또는 할인된 GPU 자원을 확보할 수 있으므로 먼저 확인하세요. AWS의 경우 연구 목적 크레딧(AWS Cloud Credit for Research)도 별도로 운영합니다.
클라우드 GPU 비용 최적화 체크리스트
GPU 클라우드 비용을 줄이는 방법은 인스턴스 유형 선택뿐만이 아닙니다. 실무에서 자주 놓치는 최적화 포인트를 정리했습니다.
- 사용하지 않는 인스턴스 즉시 종료: 학습이 끝났는데 인스턴스를 켜둔 채 퇴근하면 하루 8시간분 비용이 날아갑니다. A100 기준 $30(약 4만원)/일 손실. 자동 종료 스크립트(학습 완료 후 shutdown)를 반드시 설정하세요.
- 스토리지 비용 주의: GPU 인스턴스에 연결된 SSD 볼륨은 인스턴스 종료 후에도 과금됩니다. 1TB NVMe SSD 기준 월 $100~$170. 학습 후 결과물만 S3/GCS로 옮기고 볼륨은 삭제하세요.
- 데이터 전송 비용 확인: AWS는 아웃바운드 데이터 전송에 GB당 $0.09를 과금합니다. 대규모 데이터셋(수백 GB)을 반복 다운로드하면 전송료만 월 수십 달러가 됩니다. 데이터셋은 동일 리전의 오브젝트 스토리지에 미리 업로드해두세요.
- 리전 선택: 동일 인스턴스라도 리전에 따라 가격 차이가 5~15% 납니다. AWS us-east-1(버지니아)이 가장 저렴한 경우가 많고, 아시아 리전은 10~20% 비쌉니다. 레이턴시 요구가 없다면 미국 동부 리전을 선택하세요.
자주 묻는 질문 (FAQ)
AWS Spot, GCP Preemptible 인스턴스를 사용하면 온디맨드 대비 최대 60~70% 비용을 절감할 수 있습니다. 다만 클라우드 제공자가 언제든 인스턴스를 회수할 수 있으므로, 체크포인트 저장이 가능한 학습 작업에 적합합니다. 추론 서비스처럼 안정성이 중요한 용도에는 권장하지 않습니다.
월 500시간 이상 지속적으로 GPU를 사용하는 경우, 온프레미스가 2~3년 기준으로 더 경제적입니다. A100 서버 1대의 초기 투자비가 약 1.5~2억 원 수준이지만, 3년 클라우드 비용과 비교하면 손익 분기점을 넘깁니다. 반대로 사용량이 불규칙하거나 월 100시간 미만이면 클라우드가 유리합니다.
소규모 실험이나 파인튜닝에는 A100 40GB 1장으로 충분한 경우가 많습니다. 7B 이상의 LLM 학습에는 A100 80GB 또는 H100이 필요하며, 70B 이상 모델은 멀티 GPU(4~8장) 구성이 필수입니다. 추론 전용이라면 T4나 L4 같은 저가 GPU도 좋은 선택입니다.
AWS Activate, Google for Startups Cloud Program, Microsoft for Startups 모두 온라인으로 신청할 수 있습니다. 일반적으로 $1,000~$100,000 상당의 크레딧을 제공하며, 스타트업 단계에 따라 금액이 다릅니다. 액셀러레이터나 VC 추천을 받으면 더 높은 금액의 크레딧을 받을 수 있습니다.
예산 결정 전에 숫자부터 확인하세요
GPU 클라우드 선택은 예산, 사용 기간, 안정성 요구 수준에 따라 달라집니다. 단기 실험에는 Lambda Labs나 Vast.ai 같은 저가 플랫폼이, 프로덕션 환경에는 AWS나 Azure가 적합합니다. 스팟 인스턴스와 예약 할인을 적극 활용하면 온디맨드 대비 절반 이하로 비용을 줄일 수 있습니다. 플랫폼 선택 하나로 연간 수백만 원 차이가 나는 영역이라 미리 계산기로 시뮬레이션해두는 것이 낫습니다.
클라우드 서버 비용을 달러·원화로 환산해보세요.
서버 비용 계산하기관련 계산기: AI 토큰 비용 계산기 · SaaS 비용 비교