[카테고리:] 14

  • AI가 쓴 논문이 동료 심사 통과 — Sakana AI Scientist v2의 충격적 성과

    심사위원 세 명이 한 논문을 읽고 점수를 매겼다. 6점, 7점, 6점. 평균 6.33점으로 동료 심사를 통과했다. 그런데 저자 칸에 사람 이름이 없었다. 가설을 세운 것도, 실험을 설계한 것도, 데이터를 분석하고 글을 쓴 것도 모두 AI였다. 2025년 4월, Sakana AI가 공개한 AI Scientist v2의 논문이 머신러닝 최상위 학술 행사 ICLR의 워크숍 동료 심사를 통과하면서 연구계에 조용한 충격이 퍼졌다.

    이 사건이 단순한 기술 시연인지, 대학원생과 연구자의 일하는 방식이 바뀌는 신호탄인지 — 두 질문 모두 진지하게 다뤄야 할 시점이다.

    심사위원은 몰랐다

    Sakana AI는 세 편의 완전 자동 생성 논문을 ICLR 2025 워크숍에 제출했다. 심사는 이중 맹검으로 진행됐고, 심사위원들은 “AI가 쓴 논문이 포함됐을 수 있다”는 사실만 안내받았을 뿐 어느 논문이 AI 작성인지는 알지 못했다. 결과는 세 편 중 한 편 통과. 통과한 논문 제목은 「Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization」이다.

    중요한 디테일 한 가지. Sakana AI는 ICLR 조직위와 브리티시컬럼비아대 IRB(연구윤리위원회) 승인을 받고 실험을 진행했다. 심사 통과 이후에는 논문을 자진 철회했는데, 이유는 명확했다. “AI 생성 논문을 동일 학술지에 게재할지에 대해 커뮤니티가 아직 합의에 이르지 못했다.” 학술 무결성에 대한 자기 절제가 포함된 실험이었다.

    v1과 v2의 결정적 차이 — 코드 템플릿이 사라졌다

    AI Scientist v2가 이전 버전과 결정적으로 다른 점은 한 가지다. 인간이 작성한 코드 템플릿에 의존하지 않는다. v1은 사전에 작성된 실험 코드 틀 위에서만 작동했다. v2는 백지에서 시작해 스스로 실험을 구성한다.

    핵심 기술은 프로그레시브 에이전틱 트리 탐색(Progressive Agentic Tree Search)이다. 연구 방향을 트리 구조로 탐색하면서 유망한 가지는 확장하고 성과가 낮은 경로는 자동으로 가지치기한다. 실험 관리 전담 에이전트가 이 과정을 조율하고, VLM(시각 언어 모델) 피드백 루프가 그래프와 수식을 포함한 논문의 시각적 완성도를 반복 개선한다. 전체 파이프라인이 가설 수립 → 실험 설계 → 코드 작성 → 데이터 분석 → 시각화 → 논문 작성 → 자체 검토까지 완전 자동화돼 있다.

    한계와 맥락 — 과장 광고인가, 진짜 이정표인가

    이 결과를 균형 있게 읽으려면 몇 가지 단서를 같이 봐야 한다. TechCrunch 등 주요 매체는 통과한 워크숍 트랙의 수락률이 약 30~60%로, ICLR 메인 트랙(수락률 약 20%)보다 관문이 낮다는 점을 지적했다. 세 편 중 한 편만 통과했고, Sakana AI 자체 검토에서도 메인 트랙 기준을 충족하는 논문은 없었다.

    기술적 한계도 분명하다. 실험의 42%가 코딩 오류로 실패했고, 인용 오류도 발견됐다. 기존에 알려진 개념을 새로운 발견으로 오분류하는 사례도 있었다. 학술 무결성 측면의 우려도 가볍지 않다. AI 생성 논문이 급격히 늘면 할루시네이션 인용을 포함한 논문이 학술 데이터베이스를 오염시킬 위험이 있고, 심사위원의 부담도 늘어난다. 이건 단순한 기술 진보가 아니라 학술 인프라 전체의 구조 변화를 요구하는 사건이다.

    그러나 이 모든 한계에도 불구하고 부정할 수 없는 한 가지 사실이 남는다. AI가 인간 심사위원이 모르는 상태에서 동료 심사를 통과했다. 이전에는 없던 일이다.

    한국 연구자·대학원생에게 의미

    이 사건을 한국 학술 현장 관점에서 읽으면 세 층위로 나뉜다. 첫째, 연구 보조 도구로서의 현실적 활용. AI Scientist v2의 파이프라인은 GitHub에 오픈소스로 올라와 있다. 지금 당장 논문을 통째로 AI에 맡기는 건 무리지만, 가설 탐색·실험 설계 초안·문헌 정리 단계에서 연구 속도를 높이는 도구로 활용하는 건 충분히 현실적이다. 특히 반복 실험이 많은 딥러닝·ML 연구실에서 즉각적인 생산성 향상이 가능하다.

    둘째, 논문 심사와 학술 투명성 기준 변화. 국내 주요 학회와 저널도 조만간 AI 생성 논문 표기 의무화, AI 심사 보조 도입 같은 정책 변화를 검토해야 할 시점이다. 본인이 투고하는 저널의 AI 활용 정책을 지금부터 파악해 두는 게 안전하다. 셋째, 대학원생 역할의 재정의. AI가 실험 설계와 데이터 분석을 대신할 수 있다면 연구자의 핵심 가치는 “무엇을 왜 연구할 것인가”라는 질문 설정 능력과 결과를 비판적으로 검증하는 능력으로 옮겨 간다. AI 도구를 모르는 게 리스크가 되는 시대로 들어서고 있다.

    지금 할 일

    ML 연구자라면 github.com/SakanaAI/AI-Scientist-v2 레포를 한 번 클론해 보는 게 가장 빠른 시작이다. 에이전틱 트리 탐색이 실제로 어떻게 작동하는지 코드 단위로 볼 수 있다. 더 가벼운 진입은 arxiv.org/abs/2504.08066에서 원문을 30분 정독하는 것이다. 마지막으로 본인이 준비 중인 논문이 있다면 투고 예정 저널의 Author Guidelines에서 AI 관련 항목을 지금 확인해 두자. Nature, ACM, IEEE 등 주요 출판사는 이미 AI 활용 표기 의무 정책을 시행 중이다.

    관련 글

    출처

  • MCP 9,700만 설치 돌파 — AI 에이전트 인프라 표준은 이미 결정됐다

    표준 전쟁의 승자가 결정되는 순간은 보통 조용하다. AI 인프라 영역에서 그 일이 막 일어났다. 2024년 11월 Anthropic이 공개한 Model Context Protocol(MCP)이 16개월 만에 SDK 누적 다운로드 9,700만 건을 돌파했고, OpenAI·Google·Microsoft·AWS가 모두 채택했으며, 운영 주체는 Linux Foundation 산하 비영리 재단으로 넘어갔다. 종합하면 한 줄이다. AI 에이전트 인프라의 표준은 이미 정해졌다.

    9,700만이라는 숫자가 흔치 않은 이유

    16개월. 일반적인 개발자 인프라 표준이 5년에 걸쳐 도달하는 규모를 16개월에 이뤘다. 비교를 위해 다른 표준의 채택 곡선을 떠올려 보면 이 차이가 더 분명해진다. React가 npm 누적 1억 건에 도달하는 데 3년이 걸렸고, Kubernetes가 사실상 표준이 되기까지는 약 4년이 걸렸다. MCP는 그 곡선을 압축했다.

    현재 프로덕션 환경에서 운영 중인 MCP 서버는 1만 개 이상. ChatGPT, Cursor, Gemini, Microsoft Copilot, Visual Studio Code 같은 주요 AI 플랫폼이 모두 MCP를 기본 지원한다. 더 무거운 사실은 그 뒤에 있는 기업들의 면면이다. 평소에는 서로 직접 경쟁하는 OpenAI·Google·Microsoft·AWS·Cloudflare·Bloomberg가 단 하나의 프로토콜에 동시에 손을 들었다. 기술적 우수성을 넘어서 생태계 전략 차원의 합의가 이뤄졌다는 신호다.

    Linux Foundation으로의 이관 — 중립 표준의 완성

    2025년 12월 9일, Anthropic은 MCP를 Linux Foundation 산하의 새로운 비영리 단체에 기증했다. 이름은 Agentic AI Foundation(AAIF). 이 재단은 Anthropic·Block·OpenAI가 공동 창립했고, Google·Microsoft·AWS·Cloudflare·Bloomberg가 플래티넘 멤버로 참여한다. 한 회사가 독점적으로 소유하는 기술이 아니라 업계 공동의 표준 거버넌스 아래 관리되는 인프라가 됐다는 뜻이다.

    AAIF가 출범하면서 함께 발표한 메시지가 흥미롭다. “AI 에이전트가 투명하고 협력적인 방식으로, 공공 이익에 부합하도록 진화하는 것을 보장한다.” 자기 회사가 만든 프로토콜을 자기가 통제하기를 포기한 결정의 배경이다. AAIF는 MCP 외에도 Block의 goose와 OpenAI의 AGENTS.md를 초기 프로젝트로 포함하며 에이전트 생태계 표준화를 본격적으로 추진하고 있다.

    MCP가 실제로 하는 일 — 한 줄 비유

    MCP를 가장 정확히 설명하는 비유가 있다. AI 에이전트용 USB-C. USB-C가 등장하기 전까지는 노트북마다 충전 단자가 달랐다. 어댑터 가방을 챙기는 게 일상이었다. MCP 이전에도 비슷했다. AI 모델마다, 도구마다, 데이터 소스마다 별도의 연동 코드를 짜야 했다. 같은 Slack을 Claude에서 쓰려면 Claude용 어댑터, ChatGPT에서 쓰려면 ChatGPT용 어댑터가 따로 필요했다.

    MCP는 이걸 단일 인터페이스로 정리한다. AI 모델이 외부 데이터베이스, CRM, 개발 도구, 클라우드 서비스에 표준화된 방식으로 접근하고 도구를 호출할 수 있게 만든다. 한 번 잘 만든 MCP 서버는 어떤 AI에서도 그대로 동작한다. 현재 공개된 MCP 서버만 5,800개가 넘고, 사내 운영을 포함한 전체 프로덕션 서버는 1만 개를 넘었다.

    한국 개발자·기업에게 의미

    표준이 결정됐다는 추상적인 사실은 현장에서 네 가지 구체적 변화로 떨어진다.

    첫째, 새로운 AI 에이전트를 도입할 때 “MCP를 지원하는가”가 필수 체크 항목이 됐다. MCP를 지원하지 않는 솔루션은 점점 고립된 섬이 된다. 기업 도입 평가 표에 한 줄로 추가해 둘 만하다. 둘째, 사내 시스템 데이터 연동 비용이 결정적으로 낮아진다. ERP·CRM·DB 위에 MCP 서버를 한 번 올려 두면 이후 어떤 MCP 호환 AI도 별도 작업 없이 바로 붙는다. 사내 표준 인프라 후보 1순위다. 셋째, 한국어·한국 서비스 MCP 서버라는 빈자리가 있다. 현재 글로벌 MCP 서버의 대부분은 영어권 서비스에 집중돼 있다. 네이버 클라우드, 카카오, 쿠팡, 국내 금융 시스템 연동 MCP 서버는 아직 개척지다. 넷째, AI 개발자 채용 공고에 MCP 이해가 기본 스펙으로 등장하기 시작했다. 지금 익혀 두면 향후 1~2년 동안 시장에서 우위를 점할 수 있다.

    지금 할 일

    가장 가벼운 시작은 modelcontextprotocol.io에서 공식 사양과 튜토리얼을 한 번 훑는 것이다. Python·TypeScript SDK가 모두 준비돼 있다. 개발 경험이 적다면 Claude Desktop 설정에서 로컬 MCP 서버 하나를 연결해 보는 게 가장 직관적이다. 파일 시스템이나 GitHub 같은 오픈소스 MCP 서버를 5분 안에 붙여 보면 AI가 외부 도구를 어떻게 호출하는지 한눈에 들어온다. 사내 도입을 검토 중이라면 벤더 평가 항목에 “MCP 호환 여부” 한 줄을 지금 추가해 두자. 2~3년 안에 결정의 무게가 분명해진다.

    관련 글

    출처