GPT-5.5 출시, Terminal-Bench 82.7% 기록한 에이전틱 특화 모델

OpenAI가 에이전트 실행에 특화해 완전 재훈련한 GPT-5.5를 출시했다. 에이전틱 벤치마크 Terminal-Bench 2.0에서 82.7%, GDPval에서 84.9%를 기록했다. API 가격과 공개 일정은 소스에서 확인되지 않아 직접 확인이 필요하다.

에이전틱 특화 재훈련이 빌더에게 의미하는 것

GPT-4o 계열로 멀티스텝 자동화를 돌려봤다면 익숙한 패턴이 있다. 중간 단계에서 실수가 쌓이고, 그 실수가 뒤 단계에 전파되면서 전체 태스크가 망가지는 구조다. GPT-5.5는 이 문제를 정면으로 겨냥해 재훈련됐다. 코딩, 리서치, 데이터 분석, 소프트웨어 운영 같은 컴퓨터 작업 풀스택을 인간 감독 없이 처리하는 것이 설계 목표다.

OpenAI가 모델 라인을 이렇게 분리하기 시작했다는 것 자체가 신호다.

범용 모델(GPT-4o, Claude 3.5 Sonnet) — 프롬프트 엔지니어링으로 에이전틱 태스크를 돌리는 현재 접근
추론 특화 모델(o3, o4-mini) — 복잡한 논리 추론이 필요한 단일 태스크
에이전틱 실행 특화 모델(GPT-5.5) — 멀티스텝 자동화, 도구 호출, 롱런 태스크 처리 최적화

1인 빌더 입장에서 이 분리는 실용적이다. 지금 범용 모델로 돌리는 자동화 워크플로우 중 어떤 것을 에이전틱 특화 모델로 옮길 수 있는지 판단 기준이 생긴 것이다.

82.7%라는 수치, 지금 모델을 바꿔야 한다는 뜻인가

Terminal-Bench 2.0 82.7%는 인상적인 수치지만, 비교 기준이 없다. 소스에는 GPT-4o나 Claude 3.5 Sonnet 등 빌더들이 현재 주로 쓰는 모델의 동일 벤치마크 점수가 없다. 비교 없는 절대 수치만으로 교체 결정을 내리기는 이르다.

더 실질적인 문제는 API 접근 여부다. 가격과 공개 일정이 확인되지 않은 상태에서 워크플로우에 투입하는 건 불가능하다. 지금 할 수 있는 것은 OpenAI Playground 모델 목록을 직접 확인하는 것이고, 올라와 있다면 지금 돌리는 태스크 하나에 GPT-4o와 나란히 테스트해 보는 것이다. 벤치마크 수치보다 내 태스크에서의 실제 성능이 교체 여부를 결정한다.

platform.openai.com에서 GPT-5.5 모델 목록을 직접 확인해 보자

platform.openai.com에 접속해서 모델 목록에 GPT-5.5가 올라와 있는지 확인해 보자. API에 올라왔다면, 지금 만들고 있는 자동화 태스크 하나에 GPT-4o와 나란히 돌려서 출력 품질과 비용을 직접 비교해 보자. 벤치마크 수치보다 내 태스크에서의 실제 성능이 교체 여부를 결정한다.

GPT-5.5 출시, Terminal-Bench 82.7% 기록한 에이전틱 특화 모델

The Lead

에이전틱 특화 재훈련이 빌더에게 의미하는 것

82.7%라는 수치, 지금 모델을 바꿔야 한다는 뜻인가

platform.openai.com에서 GPT-5.5 모델 목록을 직접 확인해 보자

Public Discussion

토론