(사진=오픈AI) |
오픈AI가 고성능 소형 AI 모델 2종을 전격 공개했다. 실제 서비스 환경에서 요구되는 '빠른 속도, 높은 정확도, 낮은 비용'이라는 세가지 과제를 동시에 해결하는 데 초점을 맞췄다.
오픈AI는 17일(현지시간) 'GPT-5.4 미니(min)'와 'GPT-5.4 나노(nano)'를 공개했다.
GPT-5.4 미니는 코딩, 추론, 도구 활용, 멀티모달 이해 등 핵심 영역에서 상위 모델 'GPT-5.4'에 근접한 성능을 기록했다.
대표적으로 실제 코드 수정 능력을 평가하는 'SWE-벤치 프로'에서 54.4%를 기록, GPT-5.4(57.7%)와의 격차를 3% 수준으로 좁혔다.
컴퓨터 사용 능력을 평가하는 'OS월드-베리파이드'에서도 72.1%를 기록하며 GPT-5.4(75.0%)와 유사한 수준에 도달했다. 반면, 기존의 'GPT-5 미니'는 42.0%에 그쳐, 한 세대 만에 성능이 비약적으로 향상된 것으로 나타났다.
속도도 크게 개선됐다. GPT-5.4 미니는 GPT-5 미니 대비 약 2배 빠른 처리 속도를 제공하면서도, 실제 엔지니어링 문제 해결 능력에서는 플래그십 모델에 근접한 결과를 보여 '경량 모델의 한계'를 사실상 무너뜨렸다는 평가다.
가장 작은 모델인 GPT-5.4 나노도 주목할 만한 성능을 보였다. SWE-벤치 프로에서 52.4%를 기록하며 이전 세대 GPT-5 미니(45.7%)를 오히려 앞질렀다.
이는 단순 분류나 데이터 추출에 특화된 초경량 모델조차, 불과 몇달 전 중형 모델 수준의 코딩 능력을 갖추게 됐음을 의미한다.
GPT-5.4 미니는 단순 성능을 넘어 실제 업무 수행 능력에서도 강점을 드러냈다. 박사급 과학 문제를 평가하는 'GPQA 다이아몬드'에서 88%를 기록하며 GPT-5.4와의 격차를 5% 수준으로 유지했다.
벤치마크 결과 (사진=오픈AI) |
특히 복잡한 도구 체인을 다루는 '툴애슬론(Toolathlon)'에서는 42.9%를 기록해 GPT-5 미니(26.9%)를 크게 앞질렀다. 여러 API와 도구를 조합해 단계별 작업을 수행하는 능력이 크게 향상된 것이다.
통신 특화 벤치마크에서도 93.4%를 기록하는 등 사실상 플래그십 모델 수준에 도달했다. 이는 GPT-5.4 미니가 단순 '축소판'이 아니라, 실제 업무를 수행할 수 있는 실행형 모델임을 보여준다.
특히 주목되는 부분은 '컴퓨터 사용 능력'이다. GPT-5.4 미니는 화면 속 UI를 분석하고, 버튼·입력창·데이터를 파악한 뒤 실제 작업을 수행하는 능력에서 큰 도약을 보였다.
OS월드-베리파이드에서 72.1%를 기록하며 GPT-5.4와의 격차를 3% 이내로 줄였고, 이전 세대 대비 성능은 거의 두배 가까이 향상됐다.
하지만, GPT-5.4 나노는 이 분야에서 상대적으로 낮은 성능을 보여, 고급 시각 추론에서는 모델 크기의 영향이 여전히 크다는 점도 확인됐다.
오픈AI는 이번 발표에서 하나의 중요한 방향성을 제시했다. 모든 작업을 하나의 대형 모델이 처리하는 것이 아니라, 역할을 나눠 협업하는 구조다.
예를 들어, GPT-5.4와 같은 대형 모델이 계획 수립과 최종 판단을 담당하고, GPT-5.4 미니는 코드 검색, 파일 검토, 문서 처리 등 반복적이고 빠른 실행이 필요한 작업을 병렬로 처리하는 방식이다. '코덱스(Codex)'와 같은 시스템에서 이러한 구조가 이미 활용되고 있다.
이 구조는 속도와 비용 효율성을 동시에 확보할 수 있어, 앞으로 AI 시스템 설계의 표준으로 자리 잡을 가능성이 크다.
비용 측면에서도 경쟁력이 두드러진다. GPT-5.4 미니는 입력 토큰 100만개당 0.75달러, 출력 4.5달러로 플래그십 모델 대비 약 3분의 1 수준이다. 나노 모델은 출력 기준 12분의 1 수준까지 비용을 낮췄다.
이처럼 속도·성능·가격이라는 세가지 요소를 동시에 충족하면서, "반년 전만 해도 불가능했던 수준"이라는 평가가 나온다.
결국 GPT-5.4 미니·나노 공개는 단순한 모델 출시를 넘어, AI 활용 방식의 변화를 보여준다.
이제 기업과 개발자는 하나의 강력한 모델에만 의존하기보다, 대형 모델은 전략 수립과 추론을 담당하고 소형 모델은 실행과 자동화를 맡는 방식으로 역할을 분담하는 구조를 설계하게 될 가능성이 커지고 있다.
박찬 기자 cpark@aitimes.com
<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>저작권자>
















