[태그:] GPT-5.4

  • ChatGPT for Excel 실전 가이드: GPT-5.4 + 엑셀 통합으로 5가지 업무 자동화

    ChatGPT for Excel 실전 가이드: GPT-5.4 + 엑셀 통합으로 5가지 업무 자동화

    “또 엑셀 안에서 챗봇 흉내?” — 그렇게 시작한 의심이 무너진 이유

    처음 ChatGPT for Excel 발표를 봤을 때 솔직한 반응은 의심이었다. Microsoft Copilot이 이미 엑셀 안에 들어와 있고, 구글은 시트에 Gemini를 박아 놨다. 여기서 OpenAI가 또 비슷한 사이드바를 하나 더 띄운다고? 그게 무슨 의미인가 싶었다.

    그 의심이 꺾인 건 숫자 하나 때문이었다. OpenAI 내부 투자은행 벤치마크 — 3-Statement Financial Model을 처음부터 만들고 포맷·인용까지 채우는 작업 — 에서 GPT-5의 점수는 43.7%였다. GPT-5.4 Thinking이 같은 벤치를 돌리자 87.3%가 나왔다. 두 배다. 이 정도 차이는 단순한 모델 업그레이드의 결과가 아니라, 도구가 아예 다른 카테고리로 넘어갔다는 신호에 가깝다.

    설치 자체는 5분, 한국 사용자도 가능하다

    현재 베타는 ChatGPT Business·Enterprise·Edu·Teachers·K-12 사용자 전 세계, 그리고 Pro·Plus 사용자는 EU 외 지역에서 제공된다. 한국은 EU 외라서 Plus 구독만 있어도 곧바로 시도할 수 있다. 엑셀의 삽입 → 추가 기능 → 스토어에서 ChatGPT를 검색해 설치하고, ChatGPT 계정으로 로그인하면 사이드바가 뜬다. 별도 결제도, 별도 라이선스 키도 없다.

    실제로 뭘 시킬 수 있는가

    수식을 아예 안 쓸 수도 있다

    “B열의 날짜가 이번 달이면 C열 매출을 합산하고 부서별로 나눠 줘”라고 한국어로 치면 SUMIFS·SUMPRODUCT 같은 복잡한 함수를 직접 만들어 셀에 넣어 준다. 더 흥미로운 건 디버깅 쪽이다. 기존 수식이 #REF! 오류를 내는데 왜 그런지 모를 때, 그 셀을 클릭하고 “이거 왜 안 돼?”라고 묻는 것만으로 충분하다. VBA를 못 다루는 일반 직장인에게 이게 뭘 의미하는지는 굳이 설명하지 않아도 된다.

    회사 데이터의 영원한 적, ‘입력 형식이 다른 셀’

    한국 회사의 명단·거래처 목록이 깨끗했던 적은 단 한 번도 없었다. (주), (주식회사), 주식회사가 같은 컬럼에 섞이고, 부서명은 띄어쓰기가 제각각이고, 날짜는 8자리·하이픈·점이 한 시트에 공존한다. ChatGPT for Excel은 이걸 행 단위로 처리한다. 1만 행짜리 명단을 통째로 정규화하는 데 사람의 손은 들어가지 않는다.

    분류기·차트·피벗테이블도 자연어로

    “이 컬럼의 상품명을 보고 의류·뷰티·식품·생활용품 중 하나로 분류해 줘.” 룰 기반 분류기가 잡지 못했던 모호한 사례까지 모델이 판단한다. 차트와 피벗테이블도 자연어 한 줄이면 끝이다. “부서별 월간 매출 추이 막대 차트로 만들어 줘”라고 치면 차트 종류부터 축 설정까지 알아서 한다.

    그리고 본 게임, 재무모델

    매출과 가정값만 넣어 두고 “손익계산서·재무상태표·현금흐름표 3종 모델로 만들고 각 항목에 인용 주석 달아 줘”라고 부탁하면 포맷팅과 인용까지 포함된 모델이 통째로 생성된다. 87.3%라는 벤치 점수가 가장 빛나는 영역이 바로 여기다. 반복적인 모델 작성에 매주 몇 시간씩 쓰는 직군이라면 구독 비용은 일주일 만에 회수된다.

    같이 들어온 금융 데이터 통합

    같은 시점에 OpenAI는 ChatGPT 안에 FactSet·Dow Jones Factiva·LSEG·S&P Global 같은 금융 데이터 소스를 직접 연결했다. 외부 데이터를 별도로 가져올 필요 없이 환율·주가·거시지표를 모델에 곧바로 결합할 수 있다는 뜻이다. 엑셀에서 시나리오 분석을 돌릴 때 의미가 크다.

    그래서 — VBA를 안 배워도 되는 시대가 진짜로 왔다

    한국 직장인이 매주 엑셀에 쓰는 시간은 여전히 10시간을 넘는다는 조사가 매년 반복된다. ChatGPT for Excel이 겨냥하는 건 정확히 그 시간이다. 수식, 정리, 분류, 차트 — 사람이 가장 많이 반복하면서도 가장 적게 자동화한 영역이다. 더 이상 매크로를 배우지 않아도, 파이썬을 열지 않아도 된다는 변화의 무게는 가볍지 않다.

    지금 할 일

    엑셀의 추가 기능 스토어에서 ‘ChatGPT’를 검색해 설치한다. 가장 더러운 데이터 시트(회사명이나 부서명이 통일 안 된 컬럼)를 골라 “이 컬럼 정규화해 줘”부터 시도해 본다. 재무·통계 작업이 많은 사람이라면 사이드바에서 모델을 GPT-5.4 Thinking으로 명시적으로 바꿔야 한다. 일반 모델로는 87.3% 벤치 성능이 나오지 않는다.

    관련 글

    출처

  • GPT-5.4 Thinking 활용법: 사고 도중 끼어들기로 ChatGPT 결과물 2배 정확하게

    GPT-5.4 Thinking 활용법: 사고 도중 끼어들기로 ChatGPT 결과물 2배 정확하게

    회의실에서 발표자를 끊는 사람을 떠올려 보자

    회의에서 가장 도움이 되는 사람은 누구일까. 발표가 끝난 다음에 정중한 피드백을 주는 사람? 아니다. 발표자가 잘못된 방향으로 가기 시작한 그 순간, 짧고 정확한 한마디로 흐름을 잡아 주는 사람이다. GPT-5.4 Thinking이 처음으로 가능하게 만든 게 바로 그것이다.

    OpenAI는 이 기능을 Mid-Response Steering이라고 부른다. 모델이 한창 사고 중인 도중에 채팅창에 추가 지시를 던질 수 있고, 모델은 그 지시를 받아 답변 방향을 즉시 조정한다. 응답이 다 나올 때까지 기다렸다가 “아니, 그게 아니라…”라고 정정하는 시대가 끝났다는 뜻이다.

    왜 이게 단순한 기능 추가가 아닌가

    이전 모델까지의 한계는 묘했다. 사고 도중에 “지금 어디까지 했어?”라고 물으면 사고가 처음부터 다시 시작됐다. 시간도 토큰도 두 배가 들었다. 더 큰 문제는 잘못된 가정으로 5분 동안 깊이 들어간 다음에야 그 사실을 알 수 있다는 거였다. 5분짜리 작업이 10분짜리 작업이 됐다.

    GPT-5.4 Thinking은 사고를 시작하기 전에 preamble(사전 계획)을 먼저 보여 준다. “이 작업은 A → B → C → D 순서로 처리할게요.” 사용자는 이 계획을 1~2초 안에 훑고, 마음에 들지 않으면 그 자리에서 끼어든다. “C부터 깊게, A는 건너뛰어.” 모델은 처음부터 다시 시작하지 않는다. 받은 지시를 반영해 그대로 진행한다.

    OpenAI 내부 BrowseComp(에이전트 브라우징) 벤치 점수가 65.8%에서 82.7%까지 뛰어오른 데에는 이런 구조 변화가 깔려 있다.

    실무에서 끼어들기가 가장 빛나는 순간

    가장 먼저 떠오르는 건 긴 리서치 작업이다. “경쟁사 5곳의 1분기 매출 트렌드를 분석해 줘”라고 던졌을 때, 모델이 preamble에서 “A → B → C → D → E 순으로 분석할게요”라고 보여 준다. D사가 가장 중요한데 알파벳 순서로 처리하려 한다면? 즉시 “D사부터 가장 깊게, 다른 4사는 비교 표만”이라고 한 줄을 끼워 넣으면 된다. 한 번의 채팅으로 원하는 결과물에 도달한다는 뜻이다.

    40슬라이드짜리 재무 덱처럼 통째로 시키는 작업에서는 이 차이가 더 커진다. 잘못된 가정 하나가 결과물 전체를 다시 만들어야 하는 상황으로 번지는 게 그동안의 패턴이었다. preamble 단계에서 가정값과 출력 구조를 검토하고 수정만 해도 재작업 시간이 80% 이상 줄어든다.

    법무·계약서 비교 분석도 비슷하다. 모델이 어느 조항을 핵심으로 잡았는지 사전 계획에서 확인하고 우선순위를 재배치한다. “준거법 조항보다 손해배상 한도부터 비교해” 같은 식이다. 사용자가 도메인 지식을 갖고 있을수록 끼어들기의 정확도는 높아진다.

    코딩 쪽에서도 의미가 있다. 코드베이스 전체를 리팩토링시킬 때 모델이 어디부터 손댈지 보여 주는 단계에서 “이 모듈은 건드리지 마, 외부 의존성 있어”라고 제약을 추가한다. Claude Code나 Cursor 3 같은 코딩 에이전트와 다른 점은 분명하다. GPT-5.4 Thinking은 실행 전 계획 단계에서 개입할 수 있다.

    1M 컨텍스트와 결합되면 진짜다

    GPT-5.4는 컨텍스트 윈도가 400K에서 1M으로 확장됐다. 이전엔 긴 흐름 안에서 초반에 잡은 기준이 흐려지는 경향이 있었지만, 1M과 Mid-Response Steering이 결합되면서 한 세션 안에서 일관성을 유지하면서도 중간에 방향을 바꿀 수 있게 됐다. 책 한 권 분량의 자료를 던져 두고 작업을 시킨 뒤, 중간중간 미세 조정하는 워크플로가 처음으로 실제로 가능해진 셈이다.

    요금제는 어디서 쓸 수 있나

    ChatGPT에서는 Plus·Team·Pro·Enterprise 사용자가 모델 선택기에서 GPT-5.4 Thinking을 직접 고를 수 있다. 가장 강력한 작업이 필요한 경우 GPT-5.4 Pro가 별도로 제공된다. ChatGPT for Excel·NotebookLM 같은 OpenAI의 후속 제품들이 모두 이 모델을 두뇌로 쓴다는 점에서, 5.4 Thinking은 사실상 OpenAI 제품 라인업 전체의 기준선이다.

    그래서 — 새로운 핵심 스킬은 ‘끼어드는 능력’이다

    지금까지 ChatGPT 사용자의 능력 차이는 첫 프롬프트를 얼마나 잘 쓰느냐에서 갈렸다. 5.4 Thinking 이후에는 한 가지가 더 추가된다. 모델이 사고 중일 때 정확한 타이밍에 정확한 한마디로 끼어드는 능력. 이건 글로 배우는 것보다 손으로 익히는 게 빠르다. 회의에서 발표를 끊는 사람이 그렇듯, 처음에는 어색하지만 한두 번 해 보면 감이 잡힌다.

    지금 할 일

    ChatGPT Plus 이상이라면 자주 쓰는 작업의 기본 모델을 GPT-5.4 Thinking으로 바꿔 둔다. 다음으로 긴 작업을 시킬 때 응답 시작 전 preamble을 1~2초 안에 훑는 습관을 만든다. 마지막으로 자주 쓸 끼어들기 멘트 두세 개를 미리 만들어 두자. “X부터 깊게”, “Y는 건너뛰고”, “Z 형식으로 출력” 같은 짧은 지시문이면 충분하다.

    관련 글

    출처

  • GPT-5.4 vs Gemini vs Copilot vs 시리: AI 슈퍼앱 하나만 써야 한다면?

    GPT-5.4 vs Gemini vs Copilot vs 시리: AI 슈퍼앱 하나만 써야 한다면?

    ChatGPT로 시작해서, 검색은 Perplexity, 코딩은 Cursor, 일정은 Copilot — 이렇게 AI 툴을 여러 개 쓰는 시대가 끝나가고 있다. 2026년, 빅테크 4사가 각자의 AI를 ‘하나로 모든 걸 해결하는 슈퍼앱’으로 키우겠다고 선언했다. GPT-5.4, Gemini 3.1 Pro, Microsoft Copilot, Apple 시리 2.0 — 하나만 써야 한다면 어떻게 고를까.

    GPT-5.4: 에이전트 자동화의 현재 1위

    OpenAI가 2026년 3월 출시한 GPT-5.4는 단순한 답변 생성을 넘어 컴퓨터를 직접 조작하는 에이전트 기능이 핵심이다. Computer Use API로 브라우저·앱을 스스로 실행하고, 멀티스텝 워크플로를 자동 처리한다. Thinking 모드에서는 복잡한 문제를 사전에 계획하고 사용자가 중간에 방향을 수정할 수 있다. 컨텍스트 창은 100만 토큰으로 긴 문서 분석도 가능하다.

    요금은 무료 플랜은 GPT-5.3까지만, Plus($20/월)부터 GPT-5.4 Thinking 접근이 가능하다. GitHub Copilot, VS Code와의 통합도 가장 성숙하다.

    출처: 2026년 AI 어시스턴트 최신 비교 | 주경야근

    Gemini 3.1 Pro: 컨텍스트 200만 토큰의 압도적 처리량

    구글이 2026년 2월 출시한 Gemini 3.1 Pro의 가장 큰 무기는 200만 토큰 컨텍스트 창이다. GPT-5.4의 두 배 분량으로, 코드베이스 전체·긴 계약서·대용량 보고서를 한 번에 처리할 수 있다. ARC-AGI-2 추론 벤치마크에서 77.1%로 전작 대비 2배 이상 향상됐다.

    단점은 초기 응답 속도다. 현재 Preview 상태라 실시간 챗봇·어시스턴트 용도로는 체감 속도가 느리다. 반면 Google Workspace, Firebase, Android 생태계와 자연스럽게 연동된다. Gemini Code Assist는 무료로 제공돼 Copilot 대안으로도 주목받고 있다.

    출처: GPT-5.4 vs Gemini 3.1 Pro 비교 (March 2026) | LaoZhang AI Blog

    Microsoft Copilot: Office 생태계 안에서 가장 강하다

    Copilot Wave 3(2026년 3월)부터 Copilot은 단순 초안 작성을 넘어 회의 일정·이메일·문서 작성을 직접 실행하는 에이전트로 진화했다. Cowork 기능은 Outlook·Teams·Excel을 넘나들며 멀티스텝 업무를 자율 처리한다. Word·Excel·PowerPoint 안에서 에이전트 방식으로 문서를 완성하는 경험은 Office 유저에게 가장 자연스럽다.

    Microsoft 365 구독자라면 추가 비용 없이 Copilot 기본 기능을 쓸 수 있다. 단, Cowork는 현재 Frontier 프로그램(Early Access) 단계다.

    출처: Claude vs ChatGPT vs Copilot vs Gemini: 2026 Enterprise Guide | IntuitionLabs

    시리 2.0: 아직은 ‘예정’이지만 가장 기대되는 변화

    Apple은 WWDC 2026(6월 8일)에서 Gemini 1.2조 파라미터 모델을 탑재한 시리 전면 재설계를 발표할 예정이다. 화면 인식(Onscreen Awareness), 전체 앱 연동 에이전트, 독립 시리 앱이 핵심이다. 아직 출시 전이라 실사용 비교는 불가능하지만, 아이폰 사용자 16억 명을 배경으로 한 잠재력은 가장 크다.

    단, iOS 27 업데이트 시점인 2026년 가을 이전까지는 기존 시리 수준에 머문다.

    출처: Apple WWDC 2026 | Tom’s Guide

    So What: 하나만 골라야 한다면

    현실에서 “하나만” 쓰는 것이 가장 효율적인 경우는 드물다. 하지만 주력 툴 하나를 정하고 나머지를 보조로 쓰는 전략은 유효하다.

    • Office 365를 이미 쓰는 직장인 → Copilot이 가장 자연스러운 확장
    • 코딩·개발이 주 업무 → GPT-5.4 (에이전트 자동화, IDE 통합)
    • 긴 문서·대용량 데이터 분석 → Gemini 3.1 Pro (200만 토큰 컨텍스트)
    • 아이폰 유저, 모바일 중심 → 2026년 가을 시리 2.0 출시 후 재평가

    2026년의 정답은 “하나의 슈퍼앱”이 아니라 주력 1개 + 보조 1~2개의 멀티 AI 워크플로다.

    지금 바로 할 수 있는 것

    1. 무료로 비교 체험 — ChatGPT(무료), Gemini(무료), Copilot(Microsoft 계정 무료)로 같은 질문 던져보기
    2. Gemini Code Assist 설치 — VS Code 확장에서 무료로 설치, Copilot 대비 체감 비교
    3. WWDC 2026 캘린더 등록 — 6월 8일 시리 2.0 발표, apple.com/apple-events

    관련 글

  • GPT-5.4 완전 분석: ChatGPT 요금제별로 뭐가 달라지나

    GPT-5.4 완전 분석: ChatGPT 요금제별로 뭐가 달라지나

    ChatGPT를 열었더니 모델 목록이 또 바뀌어 있다. GPT-5.4 Thinking, GPT-5.4 Pro, GPT-5.4 mini… “이게 다 뭔데, 내가 쓰던 건 어디 갔지?” 2026년 3월 5일 OpenAI가 공개한 GPT-5.4는 단순한 버전 업이 아니다. GPT-5.3-Codex의 코딩 역량을 통합하고 추론·멀티태스크를 하나로 합친 새로운 주력 모델이다. 요금제마다 쓸 수 있는 모델이 다르기 때문에, 내 플랜에서 뭐가 달라지는지 정확히 이해해야 한다.

    GPT-5.3 vs GPT-5.4: 무엇이 달라졌나

    GPT-5.4의 가장 큰 변화는 코딩 전문 모델(GPT-5.3-Codex)의 역량을 메인라인으로 흡수했다는 점이다. 기존에는 추론이 필요한 작업과 코딩 작업에 모델을 따로 골라야 했지만, GPT-5.4부터는 하나로 처리된다.

    항목 GPT-5.3-Codex GPT-5.4
    출시일 2026년 2월 5일 2026년 3월 5일
    OSWorld 벤치마크 64% 75% (인간 기준선 72.4% 초과)
    컨텍스트 윈도우 100만 토큰
    사실 오류 기준 33% 감소
    특화 분야 코딩 전문 코딩 + 추론 + 멀티태스크

    추론 강도를 5단계(none·low·medium·high·xhigh)로 직접 설정할 수 있는 것도 새로운 기능이다. 간단한 질문은 빠르게, 복잡한 분석은 깊게 — 작업에 따라 골라 쓸 수 있다.

    출처: Introducing GPT-5.4 | OpenAI

    실제로 써보니: 코딩·문서·추론 체감 차이

    코딩에서는 GPT-5.3-Codex 수준의 정확도를 유지하면서 맥락 이해가 개선됐다. 여러 파일에 걸친 리팩토링 요청에서 일관성이 눈에 띄게 향상됐다는 평가가 많다. 특히 Computer Use API가 추가되어 GPT-5.4가 화면을 인식하고 앱을 직접 조작하는 에이전트 작업이 가능해졌다.

    문서·리서치에서는 100만 토큰 컨텍스트 덕분에 긴 보고서나 계약서 전체를 한 번에 분석할 수 있다. 사실 오류 33% 감소는 정보 검증 작업에서 체감 차이가 크다.

    추론에서는 국내 수능 테스트에서 Gemini 3.1 Pro에 이어 사실상 만점을 기록했다. 복잡한 다단계 논리 문제에서 중간에 방향을 잃는 경우가 줄었다는 피드백이 많다.

    출처: GPT-5.4 출시일, 기능 및 가격 | NxCode

    요금제별 접근 가능 모델

    내 플랜에서 GPT-5.4를 쓸 수 있는지 확인하자. 모델에 따라 접근 권한이 다르고, 한도도 제각각이다.

    요금제 월 요금 사용 가능 모델
    Free 무료 GPT-5.3 (5시간당 10회 제한)
    Go GPT-5.3, GPT-5.4 mini
    Plus $20 GPT-5.3 Instant + GPT-5.4 Thinking (주 3,000회)
    Pro $200 GPT-5.4 Thinking + GPT-5.4 Pro 무제한
    Business/Enterprise 별도 GPT-5.4 Pro 포함 전체 접근

    주의할 점이 있다. GPT-5.2 Thinking은 2026년 6월 5일부로 서비스 종료된다. Plus 이상 구독자라면 지금 모델 선택기에서 GPT-5.4 Thinking으로 바꾸는 것이 좋다.

    출처: GPT-5.3 and GPT-5.4 in ChatGPT | OpenAI Help Center

    So What: 지금 ChatGPT 구독자는 어떻게 해야 하나

    무료 사용자라면 당장 변화는 없다. GPT-5.3이 기본이고, GPT-5.4는 접근 불가다. 코딩·추론이 필요한 작업이 많다면 Plus 전환을 검토할 시점이다.

    Plus 구독자($20/월)라면 지금 당장 모델 선택기에서 GPT-5.4 Thinking으로 바꾸자. 주 3,000회 한도가 있지만, 일반 업무 용도라면 충분하다. 단순 대화는 GPT-5.3 Instant를 쓰고, 복잡한 분석은 GPT-5.4 Thinking을 쓰는 방식으로 한도를 아끼면 된다.

    Pro 구독자($200/월)라면 GPT-5.4 Pro까지 무제한으로 사용 가능하다. 장시간 에이전트 작업이나 대용량 문서 분석에 적합하다.

    지금 바로 할 수 있는 것

    1. 모델 선택기 확인 — ChatGPT 접속 후 입력창 위 모델명 클릭 → GPT-5.4 Thinking 선택 가능 여부 확인 (Plus 이상 필요)
    2. GPT-5.2 Thinking 대체 준비 — 2026년 6월 5일 종료 예정. 지금 GPT-5.4 Thinking으로 전환해 차이를 미리 체감해두자
    3. 무료 사용자는 Perplexity 병행 활용perplexity.ai 무료 플랜에서 최신 정보 검색 + 요약을 보완적으로 활용하면 GPT-5.4 없이도 상당 부분 커버 가능
  • GPT-5.4 출시 — AI가 드디어 사람보다 컴퓨터를 잘 쓴다

    OpenAI가 3월 5일 GPT-5.4를 출시했다. 자율 데스크톱 조작 벤치마크에서 인간 전문가 점수를 처음으로 넘어섰다.

    무슨 일인가

    OpenAI가 GPT-5.4를 공개했다. 이번 버전의 핵심은 Computer Use 기능이다. 모델이 스크린을 직접 보고 마우스 클릭, 키보드 입력, 앱 전환까지 스스로 실행한다. 별도 플러그인이 아니라 모델 자체에 내장된 기능이다.

    성능 수치를 보면, 실제 데스크톱 작업 능력을 측정하는 OSWorld-Verified 벤치마크에서 75.0%를 기록했다. 인간 전문가 기준점인 72.4%를 처음으로 넘어선 수치다. 직전 모델인 GPT-5.2가 같은 테스트에서 47.3%였다는 점을 감안하면, 한 세대 만에 약 28포인트가 올라간 셈이다.

    주요 스펙을 정리하면 이렇다.

    • 컨텍스트 윈도우: API 기준 최대 100만 토큰 (GPT-5.2의 40만에서 확장)
    • 토큰 효율: 복잡한 작업 기준 이전 대비 약 47% 절감
    • 오류율: 개별 주장 기준 허위 응답 33% 감소
    • Tool Search: 수만 개 규모의 툴 생태계에서 필요한 툴을 실시간으로 검색·선택하는 신규 기능
    • 출시 형태: Standard, Pro, Thinking 세 가지 변형. ChatGPT Plus·Team·Pro 구독자에게 순차 배포 중

    전문 지식 업무를 측정하는 GDPval 벤치마크에서는 44개 직군 기준 83%를 기록했다. GPT-5.2의 71%에서 크게 올라간 수치다.

    왜 중요한가

    이전까지 AI는 “말로 설명해주면 내가 실행할게” 방식이었다. 브라우저 탭을 직접 열거나, 엑셀 파일을 조작하거나, 사내 시스템에 로그인해서 데이터를 가져오는 일은 여전히 사람이 해야 했다. GPT-5.4는 그 경계를 넘는다.

    OSWorld 벤치마크가 인간 기준점을 넘겼다는 사실의 의미는 단순히 “AI가 더 똑똑해졌다”가 아니다. 반복적인 멀티 앱 워크플로 — 데이터 추출, 양식 작성, 보고서 취합 같은 작업 — 가 이제 자동화 가능한 영역으로 넘어왔다는 신호다. 이전까지 RPA(로보틱 프로세스 자동화) 전담 팀이나 맞춤형 스크립트 없이는 처리하기 어려웠던 일들이다.

    경쟁 구도도 주목할 만하다. 현 시점 기준으로 세 모델은 각자 다른 영역을 선도하고 있다. GPT-5.4는 업무 자동화와 컴퓨터 조작, Claude Opus 4.6은 코딩(SWE-Bench 80.8%), Gemini 3.1 Pro는 추론과 가격 경쟁력($2/$12 per MTok)에서 각각 앞선다. 어느 한 모델이 모든 영역을 압도하는 시대는 아직 아니다.

    So what — Kevin 코멘트

    집에서 작업할 때 컴퓨터를 AI에 맡기고 가끔 사용료만 확인하는 루틴이 생긴 지 꽤 됐다. 아직 복잡한 일은 아니지만, 그 자체로 꽤 든든하다. 오래전 좋아했던 일본 애니메이션 쵸비츠에서 사람들이 퍼스컴(퍼스널 컴퓨터)을 생활 파트너처럼 쓰던 세계관이 있었는데, GPT-5.4의 Computer Use를 쓰다 보면 그 시대가 생각보다 빨리 왔다는 느낌이 든다.

    다만 보안 문제는 아직 현실적인 걸림돌이다. 기업 시스템에 AI가 직접 로그인하고 파일을 조작하는 구조는, 인증 처리와 권한 관리가 충분히 성숙하지 않으면 새로운 공격 벡터가 될 수 있다. 그게 Computer Use의 실제 도입을 늦추는 가장 큰 이유라고 본다. 그렇지만 요즘 발전 속도를 보면 이 문제도 오래 가지 않을 것 같다. 지금 당장 전면 도입보다는, 내부 시스템과 격리된 환경에서 반복 작업부터 실험해보는 것이 현실적인 시작점이다.

    관련 맥락

    GPT-5.4 출시 직전인 3월 초, OpenAI는 GPT-5.3 Instant를 먼저 공개했다. 2~3주 간격으로 두 번의 출시가 연속으로 이어진 것이다. Anthropic도 2월 초 Claude Opus 4.6, 2월 중순 Claude Sonnet 4.6을 릴리스했다. Google은 2월 말 Gemini 3.1 Pro를 내놨다. 주요 랩 세 곳 모두 이제 수개월 단위가 아니라 2~3주 단위로 업데이트를 내보내고 있다.

    배경에 있는 경쟁 압력도 뚜렷하다. Anthropic의 Claude Code는 출시 1년도 되지 않아 연간 반복 매출 25억 달러를 기록했다는 보도가 나왔다. GPT-5.4가 GPT-5.3 Codex의 코딩 특화 기능을 메인 모델로 통합한 것도 이 맥락과 무관하지 않다.

    앞으로 어떻게 될까

    단기적으로는 Computer Use가 실무에서 얼마나 신뢰할 수 있는지가 관건이다. 벤치마크 환경과 실제 기업 시스템은 다르다. 인증 처리, 예외 상황 대응, 보안 정책 등 실제 배포 과정에서 드러날 문제들이 아직 검증되지 않았다.

    중기적으로는 이 기능이 RPA 시장에 구조적 압력을 가할 가능성이 크다. UiPath나 Automation Anywhere 같은 기존 RPA 툴이 경쟁해야 하는 상대가 바뀌는 셈이다. 반면 GPT-5.4를 활용해 내부 워크플로를 자동화하려는 팀에게는 지금이 실험 시작 시점으로 적합하다.

    한 가지 유의할 점은 GPT-5.2 Thinking이 2026년 6월 5일 종료된다는 것이다. 해당 버전을 API로 연동 중인 팀이라면 마이그레이션 일정을 미리 잡아둬야 한다.


    출처

    OpenAI — Introducing GPT-5.4 (2026.03.05)
    Build Fast with AI — GPT-5.4 Review: Features, Benchmarks & Access (2026.03)
    Digital Applied — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro (2026.03)
    NxCode — GPT-5.4 vs GPT-5.2: What Changed & Should You Upgrade? (2026.03)
    Turing College — GPT-5.4 Review: Is It Worth Leaving GPT-5.3 Codex Behind? (2026.03)