(헬스&사이언스)AI가 논문 심사하는 시대

AI학회, 동료 심사의 21% AI가 작성
학계 논문 심사의 신뢰성 붕괴 현실화

입력 : 2025-12-02 오전 10:40:31
세계 최대 규모의 인공지능 학회인 ICLR(International Conference on Learning Representations 머신러닝 전문가들의 연례 모임)의 내년 학술대회 심사 과정에서 제출된 논문에 대한 동료 심사(Peer Review) 중 21%가 AI가 전면 작성한 것으로 드러나면서 연구 생태계의 심사 신뢰 문제가 도마 위에 올랐습니다. 동료 심사는 학술 연구나 논문 등이 출판되기 전에 해당 분야의 다른 전문가들이 그 내용을 평가하는 과정을 말합니다. AI가 학술평가 과정까지 대체하는 상황이 현실화되면서, 학계는 “심사 시스템이 근본적으로 흔들리고 있다”고 우려하고 있습니다.
 
AI와 머신러닝의 급격한 성장이 논문 심사의 부실을 부르고 있다. (이미지=ChatGPT 생성)
 
미국 뉴욕의 AI 텍스트 분석 기업 팽그램 랩스(Pangram Labs)는 최근 ICLR 조직위에 제출된 7만5800건의 동료 심사와 1만9490건의 논문을 전수 분석한 결과를 공개했습니다. 분석 결과 전체 리뷰의 21%가 ‘완전 AI 작성’, 절반 이상이 ‘AI 사용 흔적’을 포함한 것으로 나타났습니다. 팽그램은 자체 개발한 LLM 감별 모델을 활용했다고 밝혔습니다.
 
“엉뚱한 분석 보고 AI가 쓴 줄 알았다”
 
'네이처 뉴스(Nature News)'의 보도에 따르면 2026년 ICLR 조직위원회에 제출된 논문과 동료 심사에 대해 수십 명의 학자들이 소셜미디어에 우려를 제기했습니다. 미국 카네기멜론대(Carnegie Mellon University)의 AI 연구자 그레이엄 뉴비그(Graham Neuvig)는 “불필요하게 장황하고 많은 항목을 나열했다”며 “일반적인 AI 또는 기계 학습 논문에 대해 평가자들이 일반적으로 요구하는 표준 통계분석과는 다른 분석을 요구했다”고 지적했습니다. 그는 소셜미디어 X(옛 트위터)에 모든 학회 제출 논문과 동료 평가를 AI 생성 텍스트로 스캔할 수 있는 사람에게 현상금을 걸겠다는 글을 올렸고, 랭그램 랩스로부터 답변을 받았습니다. 팽그램 랩스는 모든 논문과 동료 심사를 분석했고, 분석 해당 심사는 팽그램 분석에서 ‘전면 AI 작성’으로 판정됐습니다. 오류가 섞인 리뷰 논란을 빚자, 일부 연구자들은 논문 제출을 철회했습니다.
 
ICLR 2026 조직위는 저자와 심사위원이 텍스트 다듬기, 실험 코드 생성, 결과 분석을 위해 AI 도구를 쓸 수 있도록 허용했으나, 사용 내역을 완전히 공개하도록 의무화하는 정책을 운영하고 있습니다. 그러나 비공개 AI 사용, 허위정보 생성, 논문 기밀 유출 가능성이 있는 LLM 사용 등은 엄격히 금지하고 있습니다. 
 
컨퍼런스 주최측은 자동화 도구를 활용해 제출물과 리뷰가 AI 사용 정책을 위반했는지 평가할 계획입니다. 코넬대 컴퓨터 과학자이자 ICLR 2026 수석 프로그램 위원장인 바라트 하리하란(Bharat Hariharan)은 “컨퍼런스 사상 처음으로 대규모로 이 문제를 마주한 사례”라면서 “모든 과정을 거친 후 우리는 신뢰성에 대해 더 나은 판단을 내릴 수 있을 것”이라고 밝혔습니다. 다만 하리하란은 “자동 감지 도구에는 오탐지 가능성이 있어 리뷰어 자격 박탈이나 과도한 제재는 신중히 판단할 것”이라고 덧붙였습니다.
 
그레이엄 뉴비그(Graham Neuvig)가 소셜미디어 X에 올린 포스팅. (이미지= Pangram Labs)
 
AI 분야 논문 수는 급증하고 있습니다. ICLR 조직위에 따르면 올해 심사자 1인당 평균 5편의 논문이 배정됐고, 검토 기간은 2주에 불과했습니다. 하리하란은 “과거와 비교하면 심사 부담이 크게 늘었다”며 “전 세계 연구자들이 자원봉사 형태로 감당하는 구조가 한계에 다다르고 있다”고 말했습니다. 
 
논문 폭증·심사자 부족,  AI심사 불러
 
전문가들은 이번 사태가 단순한 규정 위반이 아니라, AI 시대에 맞는 새로운 심사 기준과 투명성 규범을 세워야 할 시점임을 보여준다고 말합니다. AI가 텍스트를 작성하는 단계를 넘어 심사 과정까지 관여하는 만큼, 학계의 신뢰를 회복하기 위해서는 ▲AI 사용 공개 의무 강화 ▲심사 과정 투명성 제고 ▲심사자 부담 완화 등이 필요하다는 지적입니다.
 
팽그램의 맥스 스페로 CEO는 네이처 뉴스와의 인터뷰에서 “이번 사건은 AI가 학술 생태계 전반에 영향을 미치고 있다는 점을 보여준다”며 “관리 체계를 강화하지 않으면 심사 신뢰 문제가 반복될 것”이라고  밝혔습니다. AI와 머신러닝 분야는 최근 급속도로 성장했습니다. 이 급속한 성장 자체가 ‘리뷰 위기’를 부른 것이라는 지적이 현실화하고 있습니다.
 
임삼진 객원기자 isj2020@daum.net
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지
임삼진 기자
SNS 계정 : 메일
관련기사