[태그:] 연구자동화

  • AI가 쓴 논문이 동료 심사 통과 — Sakana AI Scientist v2의 충격적 성과

    심사위원 세 명이 한 논문을 읽고 점수를 매겼다. 6점, 7점, 6점. 평균 6.33점으로 동료 심사를 통과했다. 그런데 저자 칸에 사람 이름이 없었다. 가설을 세운 것도, 실험을 설계한 것도, 데이터를 분석하고 글을 쓴 것도 모두 AI였다. 2025년 4월, Sakana AI가 공개한 AI Scientist v2의 논문이 머신러닝 최상위 학술 행사 ICLR의 워크숍 동료 심사를 통과하면서 연구계에 조용한 충격이 퍼졌다.

    이 사건이 단순한 기술 시연인지, 대학원생과 연구자의 일하는 방식이 바뀌는 신호탄인지 — 두 질문 모두 진지하게 다뤄야 할 시점이다.

    심사위원은 몰랐다

    Sakana AI는 세 편의 완전 자동 생성 논문을 ICLR 2025 워크숍에 제출했다. 심사는 이중 맹검으로 진행됐고, 심사위원들은 “AI가 쓴 논문이 포함됐을 수 있다”는 사실만 안내받았을 뿐 어느 논문이 AI 작성인지는 알지 못했다. 결과는 세 편 중 한 편 통과. 통과한 논문 제목은 「Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization」이다.

    중요한 디테일 한 가지. Sakana AI는 ICLR 조직위와 브리티시컬럼비아대 IRB(연구윤리위원회) 승인을 받고 실험을 진행했다. 심사 통과 이후에는 논문을 자진 철회했는데, 이유는 명확했다. “AI 생성 논문을 동일 학술지에 게재할지에 대해 커뮤니티가 아직 합의에 이르지 못했다.” 학술 무결성에 대한 자기 절제가 포함된 실험이었다.

    v1과 v2의 결정적 차이 — 코드 템플릿이 사라졌다

    AI Scientist v2가 이전 버전과 결정적으로 다른 점은 한 가지다. 인간이 작성한 코드 템플릿에 의존하지 않는다. v1은 사전에 작성된 실험 코드 틀 위에서만 작동했다. v2는 백지에서 시작해 스스로 실험을 구성한다.

    핵심 기술은 프로그레시브 에이전틱 트리 탐색(Progressive Agentic Tree Search)이다. 연구 방향을 트리 구조로 탐색하면서 유망한 가지는 확장하고 성과가 낮은 경로는 자동으로 가지치기한다. 실험 관리 전담 에이전트가 이 과정을 조율하고, VLM(시각 언어 모델) 피드백 루프가 그래프와 수식을 포함한 논문의 시각적 완성도를 반복 개선한다. 전체 파이프라인이 가설 수립 → 실험 설계 → 코드 작성 → 데이터 분석 → 시각화 → 논문 작성 → 자체 검토까지 완전 자동화돼 있다.

    한계와 맥락 — 과장 광고인가, 진짜 이정표인가

    이 결과를 균형 있게 읽으려면 몇 가지 단서를 같이 봐야 한다. TechCrunch 등 주요 매체는 통과한 워크숍 트랙의 수락률이 약 30~60%로, ICLR 메인 트랙(수락률 약 20%)보다 관문이 낮다는 점을 지적했다. 세 편 중 한 편만 통과했고, Sakana AI 자체 검토에서도 메인 트랙 기준을 충족하는 논문은 없었다.

    기술적 한계도 분명하다. 실험의 42%가 코딩 오류로 실패했고, 인용 오류도 발견됐다. 기존에 알려진 개념을 새로운 발견으로 오분류하는 사례도 있었다. 학술 무결성 측면의 우려도 가볍지 않다. AI 생성 논문이 급격히 늘면 할루시네이션 인용을 포함한 논문이 학술 데이터베이스를 오염시킬 위험이 있고, 심사위원의 부담도 늘어난다. 이건 단순한 기술 진보가 아니라 학술 인프라 전체의 구조 변화를 요구하는 사건이다.

    그러나 이 모든 한계에도 불구하고 부정할 수 없는 한 가지 사실이 남는다. AI가 인간 심사위원이 모르는 상태에서 동료 심사를 통과했다. 이전에는 없던 일이다.

    한국 연구자·대학원생에게 의미

    이 사건을 한국 학술 현장 관점에서 읽으면 세 층위로 나뉜다. 첫째, 연구 보조 도구로서의 현실적 활용. AI Scientist v2의 파이프라인은 GitHub에 오픈소스로 올라와 있다. 지금 당장 논문을 통째로 AI에 맡기는 건 무리지만, 가설 탐색·실험 설계 초안·문헌 정리 단계에서 연구 속도를 높이는 도구로 활용하는 건 충분히 현실적이다. 특히 반복 실험이 많은 딥러닝·ML 연구실에서 즉각적인 생산성 향상이 가능하다.

    둘째, 논문 심사와 학술 투명성 기준 변화. 국내 주요 학회와 저널도 조만간 AI 생성 논문 표기 의무화, AI 심사 보조 도입 같은 정책 변화를 검토해야 할 시점이다. 본인이 투고하는 저널의 AI 활용 정책을 지금부터 파악해 두는 게 안전하다. 셋째, 대학원생 역할의 재정의. AI가 실험 설계와 데이터 분석을 대신할 수 있다면 연구자의 핵심 가치는 “무엇을 왜 연구할 것인가”라는 질문 설정 능력과 결과를 비판적으로 검증하는 능력으로 옮겨 간다. AI 도구를 모르는 게 리스크가 되는 시대로 들어서고 있다.

    지금 할 일

    ML 연구자라면 github.com/SakanaAI/AI-Scientist-v2 레포를 한 번 클론해 보는 게 가장 빠른 시작이다. 에이전틱 트리 탐색이 실제로 어떻게 작동하는지 코드 단위로 볼 수 있다. 더 가벼운 진입은 arxiv.org/abs/2504.08066에서 원문을 30분 정독하는 것이다. 마지막으로 본인이 준비 중인 논문이 있다면 투고 예정 저널의 Author Guidelines에서 AI 관련 항목을 지금 확인해 두자. Nature, ACM, IEEE 등 주요 출판사는 이미 AI 활용 표기 의무 정책을 시행 중이다.

    관련 글

    출처