AI / 테크 비용 계산기
API 토큰 · GPU 클라우드 · SaaS 비교 · LLM 비교 · 인프라 예측
AI 비용 계산 전 알아둘 것
토큰이란 - 한국어 1토큰은 약 1.5자
토큰은 LLM이 텍스트를 처리하는 최소 단위입니다. 영어는 평균 1토큰=약 4자, 한국어는 1토큰=약 1.5자 수준입니다. 즉 한국어로 1,000자 프롬프트를 보내면 약 600-700토큰이 소모됩니다. API 비용은 입력 토큰과 출력 토큰에 각각 다른 단가가 적용되며, 출력 토큰이 보통 입력보다 3-5배 비쌉니다. OpenAI Tokenizer 도구(platform.openai.com)에서 실제 토큰 수를 미리 확인할 수 있습니다.
주요 LLM 가격 비교 (2026년 기준)
2026년 기준 주요 LLM API 가격은 다음과 같습니다. GPT-4o: 입력 $2.50/1M토큰, 출력 $10.00/1M토큰. Claude 3.5 Sonnet: 입력 $3.00/1M토큰, 출력 $15.00/1M토큰. Gemini 2.0 Flash: 입력 $0.10/1M토큰, 출력 $0.40/1M토큰. 같은 품질의 응답이라면 Gemini Flash가 GPT-4o보다 약 25배 저렴합니다. 다만 복잡한 코딩·추론 작업에서는 GPT-4o나 Claude 3.5 Sonnet이 더 높은 정확도를 보입니다.
GPU 클라우드 예약 할인 - 온디맨드 대비 30-40% 절감
AWS EC2 GPU 인스턴스 기준 온디맨드와 1년 예약(Reserved) 인스턴스의 가격 차이는 약 30-40%입니다. A100 8장 인스턴스(p4d.24xlarge)의 온디맨드 시간당 가격은 약 $32.8, 1년 예약 시 약 $19.6로 약 40% 절감됩니다. 장기 프로젝트라면 예약 인스턴스나 Spot 인스턴스를 활용하는 것이 비용 효율적입니다. Spot 인스턴스는 온디맨드 대비 최대 90% 저렴하지만 중단될 수 있어 내결함성 설계가 필요합니다.
프롬프트 캐싱으로 API 비용 최대 90% 절감
Claude API와 Gemini API는 프롬프트 캐싱(Prompt Caching) 기능을 지원합니다. 반복적인 시스템 프롬프트나 긴 컨텍스트를 캐시에 저장하면, 동일 내용을 재전송할 때 토큰 비용을 최대 90% 절감할 수 있습니다. 예를 들어 10,000토큰 시스템 프롬프트를 매 요청마다 보내는 대신 캐싱하면 캐시 히트 시 비용이 입력 가격의 10% 수준으로 내려갑니다. RAG(검색 증강 생성) 시스템이나 문서 기반 챗봇에서 특히 효과적입니다.
입력 토큰 수 x 입력 단가 + 출력 토큰 수 x 출력 단가로 계산합니다. 예를 들어 GPT-4o로 매일 1,000건의 요청(평균 입력 500토큰, 출력 300토큰)을 처리하면 월 비용은 (500x1,000x30x$2.50 + 300x1,000x30x$10.00) / 1,000,000으로 약 $127(약 17만 원)입니다. API 토큰 비용 계산기에서 모델과 예상 사용량을 입력하면 자동으로 계산됩니다.
2026년 기준 입력 토큰 단가는 GPT-4o $2.50, Claude 3.5 Sonnet $3.00으로 GPT-4o가 약 20% 저렴합니다. 출력 토큰 단가는 GPT-4o $10.00, Claude 3.5 Sonnet $15.00으로 GPT-4o가 약 33% 저렴합니다. 단순 비용만으로는 GPT-4o가 유리하지만, 긴 컨텍스트 처리나 특정 언어 능력에서는 Claude가 더 나은 결과를 보이는 경우도 있어 작업 유형에 따라 테스트 후 선택하는 것이 좋습니다.
모델 학습에는 A100 또는 H100, 추론 서비스에는 A10G나 T4로도 충분한 경우가 많습니다. 단기 실험은 온디맨드, 장기 운영은 1년 예약 인스턴스로 30-40% 비용을 절감할 수 있습니다. Lambda Labs, RunPod 같은 전문 GPU 클라우드는 AWS·GCP 대비 동일 GPU 기준 30-50% 저렴한 경우도 있어 비용 우선이라면 비교 검토가 필요합니다.
사용자 수가 적고 개발 인력이 없으면 SaaS가 유리하지만, 월 구독료 x 사용자 수가 자체구축 비용을 초과하면 자체구축이 경제적입니다. 손익분기점 공식: 자체구축 총비용 / (월 SaaS 비용 - 자체구축 월 운영비) = 회수 기간(개월). 데이터 보안, 커스터마이징 필요도, 팀 기술 역량도 함께 고려해야 합니다.
컨텍스트 윈도우 크기(긴 문서 처리 여부), 응답 속도(TTFT, 토큰/초), 특정 언어·도메인 능력, 파인튜닝 지원 여부를 함께 봐야 합니다. MMLU, HumanEval, MATH 같은 공개 벤치마크 점수도 참고하되, 실제 사용 사례와 다를 수 있으므로 직접 테스트가 필수입니다. LLM 비교표에서 2026년 기준 최신 성능·가격 데이터를 한 화면에서 확인할 수 있습니다.
프롬프트 캐싱 활용(최대 90% 절감), 소형 모델 먼저 테스트(GPT-4o-mini는 GPT-4o 대비 15배 저렴), Spot/Preemptible 인스턴스 활용(온디맨드 대비 최대 90% 할인)이 대표적입니다. 요청 배치 처리(Batch API)를 적용하면 Claude와 OpenAI API 모두 50% 할인을 받을 수 있습니다. 불필요한 긴 시스템 프롬프트 최적화만으로도 월 비용을 10-20% 줄이는 경우가 흔합니다.
클라우드 비용은 트래픽 급증(이벤트·바이럴), 데이터 전송 비용(Egress fee), 예상보다 긴 응답 토큰 수 등으로 실제가 예측보다 높아지기 쉽습니다. AWS 등 주요 클라우드는 리전 간 데이터 전송에 GB당 $0.08-0.09를 부과하는데, 글로벌 서비스에서 이 비용이 생각보다 크게 나올 수 있습니다. 예측 비용의 1.3-1.5배를 버퍼로 설정하고, AWS Cost Explorer 또는 GCP Billing으로 주간 모니터링하는 것을 권장합니다.