LLM API 토큰 단가 비교 2026 - Claude, GPT, Gemini 실사용 비용 총정리

2026년 4월 기준, 주요 LLM API의 토큰 단가는 1년 전 대비 평균 40% 이상 하락했습니다. 그런데 단가가 내려갔다고 비용이 줄었느냐 하면, 꼭 그렇지도 않습니다. 모델이 다양해지면서 "어떤 모델을, 어떤 조합으로 쓰느냐"가 월 청구서를 결정하는 핵심 변수가 됐습니다.

이 글에서는 Claude(Anthropic), GPT(OpenAI), Gemini(Google) 세 진영의 모델별 토큰 단가를 직접 비교하고, 실제 서비스 시나리오에서 월 비용이 얼마나 차이 나는지 계산해봅니다. 결론부터 말하면, 단일 모델 올인보다 모델 라우팅 전략이 비용을 절반 이하로 줄여줍니다.

2026년 주요 LLM API 토큰 단가표

아래 표는 각 벤더의 공식 가격 페이지에서 확인한 수치입니다. 단위는 100만 토큰(1M tokens)당 USD 기준이며, 환율은 1달러 = 1,430원으로 환산했습니다.

모델	입력 ($/1M)	출력 ($/1M)	입력 원화 환산	출력 원화 환산
Claude Opus 4	$15	$75	₩21,450	₩107,250
Claude Sonnet 4	$3	$15	₩4,290	₩21,450
Claude Haiku 4.5	$0.80	$4	₩1,144	₩5,720
GPT-4o	$2.50	$10	₩3,575	₩14,300
GPT-4o mini	$0.15	$0.60	₩215	₩858
GPT-4.1	$2	$8	₩2,860	₩11,440
GPT-4.1 mini	$0.40	$1.60	₩572	₩2,288
Gemini 2.5 Pro	$1.25	$10	₩1,788	₩14,300
Gemini 2.5 Pro (200K+)	$2.50	$15	₩3,575	₩21,450
Gemini 2.5 Flash	$0.15	$0.60	₩215	₩858

* Gemini 2.5 Pro는 200K 토큰 이하/이상으로 가격이 다름. Gemini 2.5 Flash는 non-thinking 모드 기준(thinking 활성화 시 출력 $3.50/1M).

표를 보면 패턴이 보입니다. 각 벤더 모두 프리미엄-중간-경량 3단계 라인업을 갖추고 있고, 경량 모델 간 가격 차이는 거의 없습니다. 차이가 크게 벌어지는 건 프리미엄 티어입니다. Claude Opus 4의 출력 단가($75/1M)는 GPT-4o mini 출력 단가($0.60/1M)의 125배입니다.

같은 작업, 모델에 따라 비용이 이렇게 다릅니다

숫자만 늘어놓으면 감이 안 옵니다. 실제 서비스 상황을 가정하고 월 비용을 계산해보겠습니다. 여기서 주의할 점이 하나 있는데요. 토큰 단가뿐 아니라 모델별 토큰 효율(같은 질문에 얼마나 많은 토큰을 소비하는지)도 비용에 영향을 줍니다.

시나리오 1: 고객 상담 챗봇 (하루 1,000건)

조건
- 하루 1,000건, 월 30,000건 요청
- 건당 평균 입력 800토큰, 출력 400토큰
- 월 총 입력 24M tokens, 출력 12M tokens

모델	월 입력 비용	월 출력 비용	월 합계 (원화)
Claude Sonnet 4	$72	$180	₩360,360
GPT-4o	$60	$120	₩257,400
GPT-4.1	$48	$96	₩205,920
Gemini 2.5 Pro	$30	$120	₩214,500
Claude Haiku 4.5	$19.2	$48	₩96,096
GPT-4o mini	$3.6	$7.2	₩15,444
Gemini 2.5 Flash	$3.6	$7.2	₩15,444

같은 상담 챗봇인데, Claude Sonnet 4를 쓰면 월 36만 원, GPT-4o mini를 쓰면 월 1.5만 원입니다. 차이가 23배. 물론 응답 품질도 차이가 나지만, 단순 FAQ 응대라면 경량 모델로도 충분합니다. ChatGPT API 비용 계산 글에서 GPT 모델별 비용 구조를 더 자세히 다루고 있으니 참고하세요.

시나리오 2: AI 코드 리뷰 도구 (하루 200건, 긴 컨텍스트)

조건
- 하루 200건, 월 6,000건 요청
- 건당 평균 입력 5,000토큰(코드 포함), 출력 1,500토큰
- 월 총 입력 30M tokens, 출력 9M tokens

모델	월 합계 (USD)	월 합계 (원화)	건당 비용
Claude Opus 4	$1,125	₩1,608,750	₩268
Claude Sonnet 4	$225	₩321,750	₩54
GPT-4.1	$132	₩188,760	₩31
Gemini 2.5 Pro	$127.5	₩182,325	₩30
GPT-4o	$165	₩235,950	₩39

코드 리뷰처럼 입력이 긴 작업에서는 입력 단가의 비중이 커집니다. Gemini 2.5 Pro가 입력 $1.25/1M으로 가장 저렴하고, GPT-4.1도 $2/1M로 선전합니다. 검산해보면, Claude Sonnet 4 기준 입력 비용 = 30M x $3/1M = $90, 출력 비용 = 9M x $15/1M = $135, 합계 $225입니다. Claude Opus 4 기준 입력 = 30M x $15/1M = $450, 출력 = 9M x $75/1M = $675, 합계 $1,125입니다.

시나리오 3: 모델 라우팅 전략 (하이브리드)

개인적으로는 이 방식이 가장 현실적이라고 봅니다. 스타트업 B사(직원 15명)가 사내 AI 어시스턴트를 운영하는 상황을 가정합니다.

조건
- 월 총 50,000건 요청
- 단순 요청 70%(35,000건): Claude Haiku 4.5 처리
- 중간 요청 25%(12,500건): GPT-4.1 처리
- 복잡한 요청 5%(2,500건): Claude Sonnet 4 처리
- 건당 평균 입력 1,000토큰, 출력 500토큰

각 티어별 비용을 계산합니다.

Haiku 티어: 입력 35M x $0.80/1M = $28, 출력 17.5M x $4/1M = $70 → $98
GPT-4.1 티어: 입력 12.5M x $2/1M = $25, 출력 6.25M x $8/1M = $50 → $75
Sonnet 티어: 입력 2.5M x $3/1M = $7.5, 출력 1.25M x $15/1M = $18.75 → $26.25
월 합계: $199.25 → ₩284,928

만약 이 50,000건을 전부 Claude Sonnet 4로 처리했다면? 입력 50M x $3 = $150, 출력 25M x $15 = $375, 합계 $525(₩750,750)입니다. 라우팅 전략으로 62% 비용 절감. 답은 간단합니다.

벤더별 숨은 차이점 - 단가만 보면 놓치는 것들

토큰 단가표만으로는 실제 비용을 정확히 예측할 수 없습니다. 벤더마다 과금 방식, 캐싱 정책, 컨텍스트 윈도우 크기가 다르기 때문입니다.

항목	Anthropic (Claude)	OpenAI (GPT)	Google (Gemini)
프롬프트 캐싱	지원 (입력의 10% 과금)	지원 (입력의 50% 과금)	지원 (입력의 25% 과금)
최대 컨텍스트	200K tokens	128K tokens	1M tokens
무료 티어	없음	제한적	있음 (15 RPM)
배치 API 할인	50% 할인	50% 할인	50% 할인
한국어 토큰 효율	상대적 우수	보통	보통~우수

여기서 눈에 띄는 건 프롬프트 캐싱입니다. 반복되는 시스템 프롬프트가 길다면 Claude의 캐싱이 가장 유리합니다. 캐시 히트 시 입력 토큰 비용이 원래의 10%만 과금되니까요. 반대로 매번 다른 프롬프트를 보내는 서비스라면 캐싱 효과가 미미합니다.

컨텍스트 윈도우도 중요합니다. Gemini 2.5 Pro의 1M 토큰 컨텍스트는 긴 문서 분석에서 독보적입니다. 다만 컨텍스트가 길어질수록 토큰 소비도 늘어나므로, "큰 창 = 항상 유리"는 아닙니다. Claude vs GPT 비교 글에서 성능 차이를 더 구체적으로 다루고 있습니다.

프롬프트 캐싱으로 실제 얼마나 아낄 수 있나

캐싱 효과를 체감하려면 구체적인 숫자가 필요합니다. 시스템 프롬프트 2,000토큰을 매 요청마다 보내는 챗봇이 하루 1,000건을 처리한다고 가정합니다.

캐싱 없이 (Claude Sonnet 4)

시스템 프롬프트 입력: 월 60M tokens x $3/1M = $180
사용자 입력 + 출력: 별도

캐싱 적용 시 (Claude Sonnet 4)

캐시 히트: 월 60M tokens x $0.30/1M = $18
절감액: $162/월 (₩231,660)

시스템 프롬프트 부분만으로 월 23만 원 절감입니다. 시스템 프롬프트가 5,000토큰 이상인 서비스라면 절감 폭이 더 커집니다. OpenAI는 캐시 히트 시 50% 과금이므로, 같은 조건에서 $90 절감($180 → $90)에 그칩니다.

어떤 모델을 언제 써야 하나 - 의사결정 기준

"제일 비싼 거 쓰면 되겠지"라고 생각하기 쉽지만, 실제로는 그렇지 않습니다. 비용 대비 품질을 따져야 합니다.

단순 분류·태깅·요약: GPT-4o mini, Gemini 2.5 Flash, Claude Haiku 4.5 - 월 2만 원 이하로 수만 건 처리 가능
고객 응대·콘텐츠 생성: GPT-4.1, Claude Sonnet 4, Gemini 2.5 Pro - 품질과 비용의 균형점
복잡한 추론·코드 생성·연구: Claude Opus 4, GPT-4o - 비용이 높지만 정확도 차이가 크다면 투자 가치 있음

AI API 비용 계산기로 본인 서비스의 예상 사용량을 입력하면 모델별 월 비용을 바로 비교해볼 수 있습니다. 요청 건수, 평균 토큰 수, 환율만 넣으면 됩니다.

2026년 가격 트렌드 - 앞으로 더 내려갈까

지난 1년간의 흐름을 보면, 경량 모델 가격은 바닥에 근접했고, 프리미엄 모델도 꾸준히 하락 중입니다. 주요 변화를 정리하면 이렇습니다.

OpenAI GPT-4o mini 출시 후 경량 모델 가격 경쟁이 본격화
Google이 Gemini 무료 티어로 진입 장벽을 낮추면서 전체 시장 단가 하락 압력
Anthropic은 프롬프트 캐싱 할인율을 높여 실질 비용 경쟁력 확보
배치 API(비실시간 처리) 할인이 세 벤더 모두 50%로 표준화

단가 자체보다는 "같은 비용으로 더 좋은 모델을 쓸 수 있게 되는" 방향으로 움직이고 있습니다. 6개월 전 Sonnet급 비용으로 지금은 더 나은 성능의 모델을 쓸 수 있다는 뜻입니다. GPU 인프라 비용이 궁금하다면 GPU 클라우드 비용 비교 글도 참고해보세요.

내 서비스의 LLM API 월 비용, 직접 계산해보세요.

AI API 비용 계산기 바로가기

관련 계산기: LLM 모델 비교 · SaaS 비용 비교

Q. 한국어 서비스에서 토큰 비용이 영어보다 비싼 이유는?

대부분의 LLM 토크나이저는 영어 중심으로 학습되어, 한국어 1글자가 평균 2~3토큰으로 분해됩니다. 같은 의미의 문장이라도 한국어로 처리하면 영어 대비 토큰이 1.5~2배 더 소비됩니다. Claude의 경우 한국어 토큰 효율이 GPT 대비 약 10~15% 높다는 테스트 결과가 있으며, Gemini도 다국어 최적화를 강조하고 있습니다. 비용을 줄이려면 시스템 프롬프트는 영어로 작성하고 사용자 응답만 한국어로 처리하는 방식이 효과적입니다.

Q. 월 100만 원 예산이면 어떤 모델 조합이 최적인가요?

월 100만 원(약 $700) 예산이라면, 단일 프리미엄 모델만 쓰기보다 라우팅 전략이 훨씬 효율적입니다. 단순 분류·요약 요청(전체의 60~70%)은 GPT-4o mini나 Claude Haiku 4.5로 처리하고, 복잡한 추론·분석 요청만 Claude Sonnet이나 GPT-4o로 보내면 됩니다. 이 방식으로 하루 약 5,000건의 요청을 처리할 수 있습니다. 반면 Claude Opus만 사용하면 동일 예산으로 하루 500건도 어렵습니다.

Q. Gemini의 무료 티어는 프로덕션에서도 사용 가능한가요?

Google은 Gemini API에 무료 티어를 제공하지만, 분당 요청 수(RPM)가 15회, 일일 토큰 한도가 100만 토큰으로 제한됩니다. 프로토타입이나 개인 프로젝트에는 충분하지만, 실제 서비스에 적용하기에는 한계가 명확합니다. 무료 티어에서는 입력 데이터가 모델 학습에 사용될 수 있다는 점도 유의해야 합니다. 유료 전환 시 RPM이 1,000회 이상으로 올라가고, 데이터 학습 제외 옵션도 제공됩니다.

Q. API 비용을 줄이는 가장 효과적인 방법은?

가장 즉각적인 방법은 프롬프트 캐싱입니다. Anthropic과 OpenAI 모두 프롬프트 캐싱을 지원하며, 반복되는 시스템 프롬프트에 대해 입력 토큰 비용을 최대 90%까지 절감할 수 있습니다. 두 번째는 모델 라우팅으로, 요청 복잡도에 따라 경량 모델과 고성능 모델을 자동 분배하는 방식입니다. 세 번째로 max_tokens 파라미터를 적절히 제한해 불필요한 출력 토큰을 줄이는 것이 있습니다. 이 세 가지를 조합하면 동일 품질 대비 비용을 50~70% 절감할 수 있습니다.

Q. 토큰 단가 외에 숨겨진 비용 요소가 있나요?

토큰 단가만 보면 놓치는 비용이 세 가지 있습니다. 첫째, 레이턴시 차이입니다. 응답 속도가 느린 모델은 서버 대기 시간이 길어져 인프라 비용이 올라갑니다. 둘째, 재시도 비용입니다. 안정성이 낮은 API는 타임아웃과 에러로 인한 재호출이 잦아 실제 비용이 공식 단가의 1.1~1.3배가 됩니다. 셋째, 파인튜닝 비용입니다. OpenAI GPT-4o 파인튜닝은 학습 토큰당 $25/1M로, 기본 추론 대비 3배 이상 비쌉니다. 총소유비용(TCO)을 따질 때 이 세 가지를 반드시 포함해야 합니다.

정리하면

LLM API 비용은 "어떤 모델을 쓰느냐"보다 "어떻게 조합하느냐"에 더 크게 좌우됩니다. 경량 모델 간 가격 차이는 거의 사라졌고, 프리미엄 모델에서만 벤더 간 큰 차이가 남아 있습니다. 모델 라우팅, 프롬프트 캐싱, 배치 API 세 가지만 제대로 활용해도 단일 모델 대비 50% 이상 비용을 줄일 수 있습니다. 본인 서비스의 요청 패턴을 먼저 파악하고, 그에 맞는 모델 조합을 찾는 것이 핵심입니다. AI API 비용 계산기로 직접 시뮬레이션해보시길 권합니다.