AI·테크

LLM API 토큰 단가 비교 2026 - Claude, GPT, Gemini 실사용 비용 총정리

2026.04.09 · 읽는 시간 약 8분

토큰 가격은 1년 새 평균 40% 넘게 떨어졌습니다. 그런데 월 청구서가 오히려 늘어난 팀이 많습니다. 이상하죠. 답은 단순합니다. 모델 라인업이 늘어나면서 "어떤 모델을, 어떤 조합으로 쓰느냐"에 따라 비용이 100배 넘게 갈리기 시작했기 때문입니다. 2026년 4월 기준 GPT-4o mini 출력은 $0.60/1M, Claude Opus 4는 $75/1M. 같은 LLM API라는 이름 아래 125배의 격차가 있습니다.

Claude, GPT, Gemini 세 진영의 모델별 토큰 단가를 직접 비교하고, 실제 서비스 시나리오로 월 비용 차이를 계산해봤습니다. 미리 결론부터 말씀드리면 - 단일 모델 올인보다 모델 라우팅이 비용을 절반 이하로 끌어내립니다.

지금 토큰 1원에 얼마인가

아래 표는 각 벤더의 공식 가격 페이지에서 직접 확인한 수치입니다. 단위는 100만 토큰(1M tokens)당 USD 기준, 환율은 1달러 = 1,430원으로 환산했습니다.

모델 입력 ($/1M) 출력 ($/1M) 입력 원화 환산 출력 원화 환산
Claude Opus 4 $15 $75 ₩21,450 ₩107,250
Claude Sonnet 4 $3 $15 ₩4,290 ₩21,450
Claude Haiku 4.5 $0.80 $4 ₩1,144 ₩5,720
GPT-4o $2.50 $10 ₩3,575 ₩14,300
GPT-4o mini $0.15 $0.60 ₩215 ₩858
GPT-4.1 $2 $8 ₩2,860 ₩11,440
GPT-4.1 mini $0.40 $1.60 ₩572 ₩2,288
Gemini 2.5 Pro $1.25 $10 ₩1,788 ₩14,300
Gemini 2.5 Pro (200K+) $2.50 $15 ₩3,575 ₩21,450
Gemini 2.5 Flash $0.15 $0.60 ₩215 ₩858

* Gemini 2.5 Pro는 200K 토큰 이하/이상으로 가격이 다름. Gemini 2.5 Flash는 non-thinking 모드 기준(thinking 활성화 시 출력 $3.50/1M).

표를 보면 패턴이 보입니다. 각 벤더 모두 프리미엄-중간-경량 3단계 라인업을 갖추고 있고, 경량 모델 간 가격 차이는 거의 없습니다. 차이가 크게 벌어지는 건 프리미엄 티어입니다. Claude Opus 4의 출력 단가($75/1M)는 GPT-4o mini 출력 단가($0.60/1M)의 125배입니다.

주요 LLM 모델 출력 토큰 단가 비교 차트 출력 토큰 단가 비교 ($/1M tokens) 2026년 4월 기준, 낮을수록 저렴 Claude Opus 4 $75 Claude Sonnet 4 $15 GPT-4o $10 Gemini 2.5 Pro $10 GPT-4.1 $8 Claude Haiku 4.5 $4 GPT-4.1 mini $1.6 GPT-4o mini / Flash $0.6

같은 일을 시켰는데 청구서가 23배 차이

단가표만 봐선 감이 안 잡힙니다. 실제 서비스 시나리오로 돌려봐야 비로소 체감됩니다. 단가뿐 아니라 모델별 토큰 효율 - 같은 질문에 얼마나 많은 토큰을 먹는지 - 도 청구서에 그대로 반영됩니다.

시나리오 1: 고객 상담 챗봇 (하루 1,000건)

조건
- 하루 1,000건, 월 30,000건 요청
- 건당 평균 입력 800토큰, 출력 400토큰
- 월 총 입력 24M tokens, 출력 12M tokens

모델 월 입력 비용 월 출력 비용 월 합계 (원화)
Claude Sonnet 4 $72 $180 ₩360,360
GPT-4o $60 $120 ₩257,400
GPT-4.1 $48 $96 ₩205,920
Gemini 2.5 Pro $30 $120 ₩214,500
Claude Haiku 4.5 $19.2 $48 ₩96,096
GPT-4o mini $3.6 $7.2 ₩15,444
Gemini 2.5 Flash $3.6 $7.2 ₩15,444

같은 상담 챗봇인데, Claude Sonnet 4를 쓰면 월 36만 원, GPT-4o mini를 쓰면 월 1.5만 원입니다. 차이가 23배. 물론 응답 품질도 차이가 나지만, 단순 FAQ 응대라면 경량 모델로도 충분합니다. ChatGPT API 비용 계산 글에서 GPT 모델별 비용 구조를 더 자세히 다루고 있으니 참고하세요.

시나리오 2: AI 코드 리뷰 도구 (하루 200건, 긴 컨텍스트)

조건
- 하루 200건, 월 6,000건 요청
- 건당 평균 입력 5,000토큰(코드 포함), 출력 1,500토큰
- 월 총 입력 30M tokens, 출력 9M tokens

모델 월 합계 (USD) 월 합계 (원화) 건당 비용
Claude Opus 4 $1,125 ₩1,608,750 ₩268
Claude Sonnet 4 $225 ₩321,750 ₩54
GPT-4.1 $132 ₩188,760 ₩31
Gemini 2.5 Pro $127.5 ₩182,325 ₩30
GPT-4o $165 ₩235,950 ₩39

코드 리뷰처럼 입력이 긴 작업에서는 입력 단가의 비중이 커집니다. Gemini 2.5 Pro가 입력 $1.25/1M으로 가장 저렴하고, GPT-4.1도 $2/1M로 선전합니다. 검산해보면, Claude Sonnet 4 기준 입력 비용 = 30M x $3/1M = $90, 출력 비용 = 9M x $15/1M = $135, 합계 $225입니다. Claude Opus 4 기준 입력 = 30M x $15/1M = $450, 출력 = 9M x $75/1M = $675, 합계 $1,125입니다.

시나리오 3: 모델 라우팅 전략 (하이브리드)

개인적으로는 이 방식이 가장 현실적이라고 봅니다. 스타트업 B사(직원 15명)가 사내 AI 어시스턴트를 운영하는 상황을 가정합니다.

조건
- 월 총 50,000건 요청
- 단순 요청 70%(35,000건): Claude Haiku 4.5 처리
- 중간 요청 25%(12,500건): GPT-4.1 처리
- 복잡한 요청 5%(2,500건): Claude Sonnet 4 처리
- 건당 평균 입력 1,000토큰, 출력 500토큰

각 티어별 비용을 계산합니다.

만약 이 50,000건을 전부 Claude Sonnet 4로 처리했다면? 입력 50M x $3 = $150, 출력 25M x $15 = $375, 합계 $525(₩750,750)입니다. 라우팅 전략으로 62% 비용 절감. 답은 간단합니다.

단가표에는 안 적힌 것들

단가표만 보고 선택하면 실제 청구서에서 당황합니다. 벤더마다 과금 방식, 캐싱 정책, 컨텍스트 윈도우 크기가 다르기 때문입니다.

항목 Anthropic (Claude) OpenAI (GPT) Google (Gemini)
프롬프트 캐싱 지원 (입력의 10% 과금) 지원 (입력의 50% 과금) 지원 (입력의 25% 과금)
최대 컨텍스트 200K tokens 128K tokens 1M tokens
무료 티어 없음 제한적 있음 (15 RPM)
배치 API 할인 50% 할인 50% 할인 50% 할인
한국어 토큰 효율 상대적 우수 보통 보통~우수

여기서 눈에 띄는 건 프롬프트 캐싱입니다. 반복되는 시스템 프롬프트가 길다면 Claude의 캐싱이 가장 유리합니다. 캐시 히트 시 입력 토큰 비용이 원래의 10%만 과금되니까요. 반대로 매번 다른 프롬프트를 보내는 서비스라면 캐싱 효과가 미미합니다.

컨텍스트 윈도우도 중요합니다. Gemini 2.5 Pro의 1M 토큰 컨텍스트는 긴 문서 분석에서 독보적입니다. 다만 컨텍스트가 길어질수록 토큰 소비도 늘어나므로, "큰 창 = 항상 유리"는 아닙니다. Claude vs GPT 비교 글에서 성능 차이를 더 구체적으로 다루고 있습니다.

프롬프트 캐싱, 진짜 효과가 있나

캐싱 효과를 체감하려면 구체적인 숫자가 필요합니다. 시스템 프롬프트 2,000토큰을 매 요청마다 보내는 챗봇이 하루 1,000건을 처리한다고 가정합니다.

캐싱 없이 (Claude Sonnet 4)

캐싱 적용 시 (Claude Sonnet 4)

시스템 프롬프트 부분만으로 월 23만 원 절감입니다. 시스템 프롬프트가 5,000토큰 이상인 서비스라면 절감 폭이 더 커집니다. OpenAI는 캐시 히트 시 50% 과금이므로, 같은 조건에서 $90 절감($180 → $90)에 그칩니다.

결국 모델 선택은 용도가 정합니다

"가장 비싼 거 쓰면 되지 않나." 흔한 착각입니다. 비용 대비 품질로 따지면 답이 완전히 달라집니다.

AI API 비용 계산기로 본인 서비스의 예상 사용량을 입력하면 모델별 월 비용을 바로 비교해볼 수 있습니다. 요청 건수, 평균 토큰 수, 환율만 넣으면 됩니다.

앞으로 더 내려갈까

지난 1년간의 흐름을 보면, 경량 모델 가격은 거의 바닥이고, 프리미엄 모델도 꾸준히 하락 중입니다. 주요 변화를 짚어보면 이렇습니다.

단가 자체보다는 "같은 비용으로 더 좋은 모델을 쓸 수 있게 되는" 방향으로 움직이고 있습니다. 6개월 전 Sonnet급 비용으로 지금은 더 나은 성능의 모델을 쓸 수 있다는 뜻입니다. GPU 인프라 비용이 궁금하다면 GPU 클라우드 비용 비교 글도 참고해보세요.

내 서비스의 LLM API 월 비용, 직접 계산해보세요.

AI API 비용 계산기 바로가기

관련 계산기: LLM 모델 비교 · SaaS 비용 비교

Q. 한국어 서비스에서 토큰 비용이 영어보다 비싼 이유는?

대부분의 LLM 토크나이저는 영어 중심으로 학습되어, 한국어 1글자가 평균 2~3토큰으로 분해됩니다. 같은 의미의 문장이라도 한국어로 처리하면 영어 대비 토큰이 1.5~2배 더 소비됩니다. Claude의 경우 한국어 토큰 효율이 GPT 대비 약 10~15% 높다는 테스트 결과가 있으며, Gemini도 다국어 최적화를 강조하고 있습니다. 비용을 줄이려면 시스템 프롬프트는 영어로 작성하고 사용자 응답만 한국어로 처리하는 방식이 효과적입니다.

Q. 월 100만 원 예산이면 어떤 모델 조합이 최적인가요?

월 100만 원(약 $700) 예산이라면, 단일 프리미엄 모델만 쓰기보다 라우팅 전략이 훨씬 효율적입니다. 단순 분류·요약 요청(전체의 60~70%)은 GPT-4o mini나 Claude Haiku 4.5로 처리하고, 복잡한 추론·분석 요청만 Claude Sonnet이나 GPT-4o로 보내면 됩니다. 이 방식으로 하루 약 5,000건의 요청을 처리할 수 있습니다. 반면 Claude Opus만 사용하면 동일 예산으로 하루 500건도 어렵습니다.

Q. Gemini의 무료 티어는 프로덕션에서도 사용 가능한가요?

Google은 Gemini API에 무료 티어를 제공하지만, 분당 요청 수(RPM)가 15회, 일일 토큰 한도가 100만 토큰으로 제한됩니다. 프로토타입이나 개인 프로젝트에는 충분하지만, 실제 서비스에 적용하기에는 한계가 명확합니다. 무료 티어에서는 입력 데이터가 모델 학습에 사용될 수 있다는 점도 유의해야 합니다. 유료 전환 시 RPM이 1,000회 이상으로 올라가고, 데이터 학습 제외 옵션도 제공됩니다.

Q. API 비용을 줄이는 가장 효과적인 방법은?

가장 즉각적인 방법은 프롬프트 캐싱입니다. Anthropic과 OpenAI 모두 프롬프트 캐싱을 지원하며, 반복되는 시스템 프롬프트에 대해 입력 토큰 비용을 최대 90%까지 절감할 수 있습니다. 두 번째는 모델 라우팅으로, 요청 복잡도에 따라 경량 모델과 고성능 모델을 자동 분배하는 방식입니다. 세 번째로 max_tokens 파라미터를 적절히 제한해 불필요한 출력 토큰을 줄이는 것이 있습니다. 이 세 가지를 조합하면 동일 품질 대비 비용을 50~70% 절감할 수 있습니다.

Q. 토큰 단가 외에 숨겨진 비용 요소가 있나요?

토큰 단가만 보면 놓치는 비용이 세 가지 있습니다. 첫째, 레이턴시 차이입니다. 응답 속도가 느린 모델은 서버 대기 시간이 길어져 인프라 비용이 올라갑니다. 둘째, 재시도 비용입니다. 안정성이 낮은 API는 타임아웃과 에러로 인한 재호출이 잦아 실제 비용이 공식 단가의 1.1~1.3배가 됩니다. 셋째, 파인튜닝 비용입니다. OpenAI GPT-4o 파인튜닝은 학습 토큰당 $25/1M로, 기본 추론 대비 3배 이상 비쌉니다. 총소유비용(TCO)을 따질 때 이 세 가지를 반드시 포함해야 합니다.

한 줄 요약

LLM API 비용을 결정하는 건 "어떤 모델이냐"가 아니라 "어떻게 조합하느냐"입니다. 경량 모델끼리는 가격 차이가 거의 없고, 벤더 간 차이가 크게 벌어지는 건 프리미엄 티어뿐. 모델 라우팅, 프롬프트 캐싱, 배치 API. 이 세 가지만 제대로 챙기면 단일 모델 대비 비용이 절반 이하로 내려갑니다. 본인 서비스의 요청 패턴부터 파악하고, 거기에 맞춘 조합을 만드세요. AI API 비용 계산기로 직접 돌려보면 감이 바로 잡힙니다.