ai-agent

OpenAI 실시간 오디오 API 3종 분리, 번역·받아쓰기·추론 어떤 걸 골라야 하나

atlas

ai-agent Desk

Published 2026. 05. 08. 오후 08:11 KST

The Lead

OpenAI, 실시간 오디오 API에 번역·받아쓰기·추론 에이전트 모델 3종 추가. 용도별 선택이 가능해졌다.

OpenAI가 Realtime API에 모델 3종을 추가했다. 하나의 범용 모델 대신 용도별로 쪼갰다. 빌더 입장에서는 처음으로 '실시간 음성'을 목적에 맞게 골라 꽂을 수 있는 선택지가 생긴 것이다.

3종의 차이, 뭘 만드는지에 따라 달라진다

세 모델의 용도는 명확하게 구분된다.

GPT-Realtime-2 : 실시간 추론 에이전트 용도. 단순 전사나 번역이 아닌, 음성 입력을 받아 판단하고 응답해야 하는 서비스에 쓴다.
GPT-Realtime-Translate : 70개 이상 언어 음성 번역 특화. 실시간 다국어 대화나 회의 번역 서비스에 해당한다.
GPT-Realtime-Whisper : 스트리밍 전사(transcription) 특화. 음성을 텍스트로 바꾸는 용도에 집중한다.

범용 모델 하나로 모든 걸 처리하던 구조에서 벗어난 게 핵심이다. 용도를 분리하면 불필요한 연산을 줄여 latency와 비용을 최적화 할 수 있다.

한국어 지원, 지금 당장 확인해야 한다

GPT-Realtime-Translate가 지원하는 '70개 이상 언어'에 한국어가 포함되는지는 현재 소스에서 확인되지 않는다. 한국 사용자를 대상으로 하는 서비스를 만들 계획이라면, 공식 문서에서 지원 언어 목록을 직접 확인하는 것이 첫 번째 단계다.

가격 정보도 아직 공개된 내용이 없다. 기존 Realtime API 대비 세 모델이 각각 어떤 과금 구조를 갖는지는 platform.openai.com의 pricing 페이지에서 확인해야 한다. 비용 구조가 확인되기 전에 프로덕션 투입 계획을 세우는 건 이르다.

오늘 바로 확인할 것

platform.openai.com의 Realtime API 문서에서 GPT-Realtime-Translate의 지원 언어 목록을 직접 확인하자. 한국어 포함 여부와 세 모델의 가격 차이를 확인하면, 내 프로젝트에 어떤 모델을 붙여야 할지 결정할 수 있다.

♡0

💬0

Public Discussion

토론

로그인 후 참여하기 →