GPT-5.4 출시 — AI가 드디어 사람보다 컴퓨터를 잘 쓴다

OpenAI가 3월 5일 GPT-5.4를 출시했다. 자율 데스크톱 조작 벤치마크에서 인간 전문가 점수를 처음으로 넘어섰다.

무슨 일인가

OpenAI가 GPT-5.4를 공개했다. 이번 버전의 핵심은 Computer Use 기능이다. 모델이 스크린을 직접 보고 마우스 클릭, 키보드 입력, 앱 전환까지 스스로 실행한다. 별도 플러그인이 아니라 모델 자체에 내장된 기능이다.

성능 수치를 보면, 실제 데스크톱 작업 능력을 측정하는 OSWorld-Verified 벤치마크에서 75.0%를 기록했다. 인간 전문가 기준점인 72.4%를 처음으로 넘어선 수치다. 직전 모델인 GPT-5.2가 같은 테스트에서 47.3%였다는 점을 감안하면, 한 세대 만에 약 28포인트가 올라간 셈이다.

주요 스펙을 정리하면 이렇다.

컨텍스트 윈도우: API 기준 최대 100만 토큰 (GPT-5.2의 40만에서 확장)
토큰 효율: 복잡한 작업 기준 이전 대비 약 47% 절감
오류율: 개별 주장 기준 허위 응답 33% 감소
Tool Search: 수만 개 규모의 툴 생태계에서 필요한 툴을 실시간으로 검색·선택하는 신규 기능
출시 형태: Standard, Pro, Thinking 세 가지 변형. ChatGPT Plus·Team·Pro 구독자에게 순차 배포 중

전문 지식 업무를 측정하는 GDPval 벤치마크에서는 44개 직군 기준 83%를 기록했다. GPT-5.2의 71%에서 크게 올라간 수치다.

왜 중요한가

이전까지 AI는 “말로 설명해주면 내가 실행할게” 방식이었다. 브라우저 탭을 직접 열거나, 엑셀 파일을 조작하거나, 사내 시스템에 로그인해서 데이터를 가져오는 일은 여전히 사람이 해야 했다. GPT-5.4는 그 경계를 넘는다.

OSWorld 벤치마크가 인간 기준점을 넘겼다는 사실의 의미는 단순히 “AI가 더 똑똑해졌다”가 아니다. 반복적인 멀티 앱 워크플로 — 데이터 추출, 양식 작성, 보고서 취합 같은 작업 — 가 이제 자동화 가능한 영역으로 넘어왔다는 신호다. 이전까지 RPA(로보틱 프로세스 자동화) 전담 팀이나 맞춤형 스크립트 없이는 처리하기 어려웠던 일들이다.

경쟁 구도도 주목할 만하다. 현 시점 기준으로 세 모델은 각자 다른 영역을 선도하고 있다. GPT-5.4는 업무 자동화와 컴퓨터 조작, Claude Opus 4.6은 코딩(SWE-Bench 80.8%), Gemini 3.1 Pro는 추론과 가격 경쟁력($2/$12 per MTok)에서 각각 앞선다. 어느 한 모델이 모든 영역을 압도하는 시대는 아직 아니다.

So what — Kevin 코멘트

집에서 작업할 때 컴퓨터를 AI에 맡기고 가끔 사용료만 확인하는 루틴이 생긴 지 꽤 됐다. 아직 복잡한 일은 아니지만, 그 자체로 꽤 든든하다. 오래전 좋아했던 일본 애니메이션 쵸비츠에서 사람들이 퍼스컴(퍼스널 컴퓨터)을 생활 파트너처럼 쓰던 세계관이 있었는데, GPT-5.4의 Computer Use를 쓰다 보면 그 시대가 생각보다 빨리 왔다는 느낌이 든다.

다만 보안 문제는 아직 현실적인 걸림돌이다. 기업 시스템에 AI가 직접 로그인하고 파일을 조작하는 구조는, 인증 처리와 권한 관리가 충분히 성숙하지 않으면 새로운 공격 벡터가 될 수 있다. 그게 Computer Use의 실제 도입을 늦추는 가장 큰 이유라고 본다. 그렇지만 요즘 발전 속도를 보면 이 문제도 오래 가지 않을 것 같다. 지금 당장 전면 도입보다는, 내부 시스템과 격리된 환경에서 반복 작업부터 실험해보는 것이 현실적인 시작점이다.

앞으로 어떻게 될까

단기적으로는 Computer Use가 실무에서 얼마나 신뢰할 수 있는지가 관건이다. 벤치마크 환경과 실제 기업 시스템은 다르다. 인증 처리, 예외 상황 대응, 보안 정책 등 실제 배포 과정에서 드러날 문제들이 아직 검증되지 않았다.

중기적으로는 이 기능이 RPA 시장에 구조적 압력을 가할 가능성이 크다. UiPath나 Automation Anywhere 같은 기존 RPA 툴이 경쟁해야 하는 상대가 바뀌는 셈이다. 반면 GPT-5.4를 활용해 내부 워크플로를 자동화하려는 팀에게는 지금이 실험 시작 시점으로 적합하다.

한 가지 유의할 점은 GPT-5.2 Thinking이 2026년 6월 5일 종료된다는 것이다. 해당 버전을 API로 연동 중인 팀이라면 마이그레이션 일정을 미리 잡아둬야 한다.

출처

OpenAI — Introducing GPT-5.4 (2026.03.05)
Build Fast with AI — GPT-5.4 Review: Features, Benchmarks & Access (2026.03)
Digital Applied — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro (2026.03)
NxCode — GPT-5.4 vs GPT-5.2: What Changed & Should You Upgrade? (2026.03)
Turing College — GPT-5.4 Review: Is It Worth Leaving GPT-5.3 Codex Behind? (2026.03)

GPT-5.4 출시 — AI가 드디어 사람보다 컴퓨터를 잘 쓴다

무슨 일인가

왜 중요한가

So what — Kevin 코멘트

관련 맥락

앞으로 어떻게 될까

더 많은 게시물

Anthropic Managed Agents 발표 직후 SaaS 주가 폭락 — “소프트웨어는 이제 투자 불가인가” 논쟁 완전 정리

AI 툴 4개부터 생산성이 떨어진다 — 집중 효율 60%, 3년 최저치의 진짜 원인

구글 AI Edge Eloquent 완전 정리 — 오프라인에서 도는 Gemma 받아쓰기 앱, iOS 기본 받아쓰기를 노린다

Claude Managed Agents 공개 베타 완전 정리 — Anthropic이 에이전트 인프라를 판다