OpenAI가 3월 5일 GPT-5.4를 출시했다. 자율 데스크톱 조작 벤치마크에서 인간 전문가 점수를 처음으로 넘어섰다.
무슨 일인가
OpenAI가 GPT-5.4를 공개했다. 이번 버전의 핵심은 Computer Use 기능이다. 모델이 스크린을 직접 보고 마우스 클릭, 키보드 입력, 앱 전환까지 스스로 실행한다. 별도 플러그인이 아니라 모델 자체에 내장된 기능이다.

성능 수치를 보면, 실제 데스크톱 작업 능력을 측정하는 OSWorld-Verified 벤치마크에서 75.0%를 기록했다. 인간 전문가 기준점인 72.4%를 처음으로 넘어선 수치다. 직전 모델인 GPT-5.2가 같은 테스트에서 47.3%였다는 점을 감안하면, 한 세대 만에 약 28포인트가 올라간 셈이다.
주요 스펙을 정리하면 이렇다.
- 컨텍스트 윈도우: API 기준 최대 100만 토큰 (GPT-5.2의 40만에서 확장)
- 토큰 효율: 복잡한 작업 기준 이전 대비 약 47% 절감
- 오류율: 개별 주장 기준 허위 응답 33% 감소
- Tool Search: 수만 개 규모의 툴 생태계에서 필요한 툴을 실시간으로 검색·선택하는 신규 기능
- 출시 형태: Standard, Pro, Thinking 세 가지 변형. ChatGPT Plus·Team·Pro 구독자에게 순차 배포 중
전문 지식 업무를 측정하는 GDPval 벤치마크에서는 44개 직군 기준 83%를 기록했다. GPT-5.2의 71%에서 크게 올라간 수치다.
왜 중요한가
이전까지 AI는 “말로 설명해주면 내가 실행할게” 방식이었다. 브라우저 탭을 직접 열거나, 엑셀 파일을 조작하거나, 사내 시스템에 로그인해서 데이터를 가져오는 일은 여전히 사람이 해야 했다. GPT-5.4는 그 경계를 넘는다.
OSWorld 벤치마크가 인간 기준점을 넘겼다는 사실의 의미는 단순히 “AI가 더 똑똑해졌다”가 아니다. 반복적인 멀티 앱 워크플로 — 데이터 추출, 양식 작성, 보고서 취합 같은 작업 — 가 이제 자동화 가능한 영역으로 넘어왔다는 신호다. 이전까지 RPA(로보틱 프로세스 자동화) 전담 팀이나 맞춤형 스크립트 없이는 처리하기 어려웠던 일들이다.
경쟁 구도도 주목할 만하다. 현 시점 기준으로 세 모델은 각자 다른 영역을 선도하고 있다. GPT-5.4는 업무 자동화와 컴퓨터 조작, Claude Opus 4.6은 코딩(SWE-Bench 80.8%), Gemini 3.1 Pro는 추론과 가격 경쟁력($2/$12 per MTok)에서 각각 앞선다. 어느 한 모델이 모든 영역을 압도하는 시대는 아직 아니다.
So what — Kevin 코멘트
집에서 작업할 때 컴퓨터를 AI에 맡기고 가끔 사용료만 확인하는 루틴이 생긴 지 꽤 됐다. 아직 복잡한 일은 아니지만, 그 자체로 꽤 든든하다. 오래전 좋아했던 일본 애니메이션 쵸비츠에서 사람들이 퍼스컴(퍼스널 컴퓨터)을 생활 파트너처럼 쓰던 세계관이 있었는데, GPT-5.4의 Computer Use를 쓰다 보면 그 시대가 생각보다 빨리 왔다는 느낌이 든다.
다만 보안 문제는 아직 현실적인 걸림돌이다. 기업 시스템에 AI가 직접 로그인하고 파일을 조작하는 구조는, 인증 처리와 권한 관리가 충분히 성숙하지 않으면 새로운 공격 벡터가 될 수 있다. 그게 Computer Use의 실제 도입을 늦추는 가장 큰 이유라고 본다. 그렇지만 요즘 발전 속도를 보면 이 문제도 오래 가지 않을 것 같다. 지금 당장 전면 도입보다는, 내부 시스템과 격리된 환경에서 반복 작업부터 실험해보는 것이 현실적인 시작점이다.
관련 맥락
GPT-5.4 출시 직전인 3월 초, OpenAI는 GPT-5.3 Instant를 먼저 공개했다. 2~3주 간격으로 두 번의 출시가 연속으로 이어진 것이다. Anthropic도 2월 초 Claude Opus 4.6, 2월 중순 Claude Sonnet 4.6을 릴리스했다. Google은 2월 말 Gemini 3.1 Pro를 내놨다. 주요 랩 세 곳 모두 이제 수개월 단위가 아니라 2~3주 단위로 업데이트를 내보내고 있다.
배경에 있는 경쟁 압력도 뚜렷하다. Anthropic의 Claude Code는 출시 1년도 되지 않아 연간 반복 매출 25억 달러를 기록했다는 보도가 나왔다. GPT-5.4가 GPT-5.3 Codex의 코딩 특화 기능을 메인 모델로 통합한 것도 이 맥락과 무관하지 않다.
앞으로 어떻게 될까
단기적으로는 Computer Use가 실무에서 얼마나 신뢰할 수 있는지가 관건이다. 벤치마크 환경과 실제 기업 시스템은 다르다. 인증 처리, 예외 상황 대응, 보안 정책 등 실제 배포 과정에서 드러날 문제들이 아직 검증되지 않았다.
중기적으로는 이 기능이 RPA 시장에 구조적 압력을 가할 가능성이 크다. UiPath나 Automation Anywhere 같은 기존 RPA 툴이 경쟁해야 하는 상대가 바뀌는 셈이다. 반면 GPT-5.4를 활용해 내부 워크플로를 자동화하려는 팀에게는 지금이 실험 시작 시점으로 적합하다.
한 가지 유의할 점은 GPT-5.2 Thinking이 2026년 6월 5일 종료된다는 것이다. 해당 버전을 API로 연동 중인 팀이라면 마이그레이션 일정을 미리 잡아둬야 한다.
출처
OpenAI — Introducing GPT-5.4 (2026.03.05)
Build Fast with AI — GPT-5.4 Review: Features, Benchmarks & Access (2026.03)
Digital Applied — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro (2026.03)
NxCode — GPT-5.4 vs GPT-5.2: What Changed & Should You Upgrade? (2026.03)
Turing College — GPT-5.4 Review: Is It Worth Leaving GPT-5.3 Codex Behind? (2026.03)