(사진=프런티어스(Frontiers)의 홈페이지 화면 캡처)
[뉴스토마토 임삼진 객원기자] “우리가 생산하는 과학 데이터의 90%는 세상 밖으로 나오지 못한 채 사라집니다.” 과학 출판사 프런티어스(Frontiers)의 CEO 카밀라 마르크람(Kamila Markram)의 말입니다.
수십억 달러의 연구비로 만들어진 데이터 중, 실제로 공개되어 재사용되는 것은 20%도 채 되지 않습니다. 그마저도 대부분은 형식이 제각각이라 AI가 활용하기 어렵습니다. 이로 인해 수많은 연구 결과가 검증되지 못하거나, 새로운 발견으로 이어지지 못한 채 ‘데이터의 블랙홀’ 속으로 사라집니다.
프런티어스는 이 문제를 정면으로 겨냥했습니다. 2025년 10월13일, 이 회사는 세계 최초의 AI 기반 연구 데이터 관리 시스템 ‘FAIR² 테이터 관리(FAIR² Data Management)’를 공식 발표했습니다. 이들이 내건 FAIR의 4원칙은 ‘Findable, Accessible, Interoperable, Reusable(찾을 수 있는, 접근 가능한, 상호 운용 가능한, 재사용 가능한)’입니다. 이들 FAIR 원칙에 인공지능 적합성(AI-compatibility)과 윤리적 재사용 원칙을 더한 ‘FAIR²’는, 단순한 슬로건이 아니라 “사라진 과학을 구하는 인프라”로 설계되었다는 설명입니다.
AI가 만드는 새로운 연구 생태계
FAIR² 시스템은 연구자가 데이터를 업로드하면, 인공지능이 자동으로 데이터를 정리·검증하고, 표준화된 형식으로 변환합니다. 과거 수개월이 걸리던 데이터 큐레이션, 메타데이터 생성, 품질 검토, 인용 처리 과정이 단 몇 분 만에 완료됩니다. 이 과정에서 연구자는 4가지 결과물을 얻게 됩니다.
① 공인 데이터 패키지(Certified Data Package) - 품질 보증된 데이터 세트
② 인용 가능한 데이터 논문(Data Article) - 데이터 자체를 학문적 성과로 인정받게 함
③ AI 대화형 포털(Interactive Data Portal) - 데이터 시각화와 대화형 분석 기능 제공
④ FAIR² 인증서(Certificate) - 데이터의 재사용성, 투명성, 접근성 보증
이로써 데이터는 단순히 저장되는 것을 넘어, 인용되고, 비교되고, 학문적 가치를 인정받는 ‘지식 자산’으로 재탄생합니다.
FAIR²의 기술적 핵심은 프런티어스 산하 AI 벤처 ‘센사이언스(Senscience)’가 개발한 AI 데이터 스튜어드(Data Steward)입니다. 이는 인간 연구자가 수행하던 검증·요약·포맷팅 과정을 완전히 자동화해, 데이터의 신뢰성과 확장성을 동시에 높였습니다.
사라진 데이터 어떻게 되살아날까
FAIR²는 이미 여러 글로벌 연구진의 ‘시범 데이터세트(pilot datasets)’를 통해 작동 중입니다. <사이언스 데일리(Science Daily)>가 예시한 4개의 데이터세트는 다음과 같습니다.
▲ SARS-CoV-2 변이 데이터세트: 3800개의 스파이크 단백질 변이 정보를 AlphaFold2·ESMFold 예측과 연계, 팬데믹 대응용 AI 연구에 활용.
▲ 전임상 뇌손상 MRI 데이터: 4개 연구기관의 확산 MRI 자료를 표준화, 외상성 뇌손상 연구의 재현성을 확보.
▲ 환경 압력 지표(1990~2050): 43개국의 온실가스·폐기물·GDP 데이터를 통합, 기후정책 비교·예측 가능.
▲ 인도-태평양 환초 생물다양성 데이터: 280개 환초의 해양 생태 자료를 통합, 보전 우선순위 분석에 활용.
이들 데이터는 단순히 ‘공유된’ 것이 아니라, “다시 사용할 수 있고, 신뢰할 수 있으며, 인용 가능한 형태로 보존된 첫 사례”입니다. UCLA 닐 해리스(Neil Harris) 교수는 “이 플랫폼은 결측과 품질을 객관적으로 점검해 비전문가도 쉽게 데이터를 이해하도록 돕는다”고 평가했습니다.
“연구자의 명예를 되살리는 인용 혁명 일으키겠다”
FAIR²는 데이터 생산자의 ‘인용권’을 제도화했습니다. 지금까지는 논문만이 인용과 학문적 평가의 대상이었지만, 이제는 데이터 자체가 정식 논문처럼 DOI(디지털 객체 식별자)를 부여받습니다.
센사이언스의 CEO 션 힐(Sean Hill)은 이렇게 말합니다.
“과학은 매년 수십억 달러를 데이터 생산에 쏟지만, 대부분은 사라집니다. FAIR²는 그 모든 데이터를 다시 빛 속으로 꺼내, 연구자에게 정당한 인용과 명예를 돌려줍니다. 이것이야말로 과학이 사회로 돌아가는 길입니다.”
이 시스템은 단순한 기술 혁신이 아니라, 연구 윤리와 보상 체계의 혁신이기도 하다는 설명입니다. 데이터를 공유하는 연구자에게 인용과 평가 점수를 제공함으로써, ‘공유할수록 이득이 되는’ 선순환 구조를 만들어냅니다.
“AI가 열어준 투명 과학의 시대”
FAIR²는 과학의 패러다임을 ‘논문 중심’에서 ‘데이터 중심, AI 통합형 과학’으로 바꿀 수 있으리라는 전망도 나옵니다. 리던대학의 에릭 슐체스(Erik Schultes) 교수는 “FAIR²는 과학 데이터를 진정으로 ‘찾을 수 있고, 쓸 수 있게’ 만든 최초의 실현 모델”이라며 “FAIR 원칙을 현실로 바꾼 전환점”이라고 평가했습니다.
이 플랫폼은 연구자뿐 아니라 정책결정자, 산업계, 시민사회, AI 시스템 모두가 접근할 수 있는 열린 과학 인프라를 지향합니다. 이는 곧 인공지능이 과학의 재활용 엔진으로 작동하게 된다는 의미입니다.
바스크연구연합의 앙헬 보르하(Ángel Borja)는 “데이터 관리와 논문 발행이 하나의 연속된 과정으로 단순화돼, 모든 이용자에게 실용적인 형태로 제공된다”고 말했습니다.
“잃어버린 90%를 되찾을 것”
FAIR²에는 사라진 90%의 과학을 다시 세상으로 불러내는 복원 시스템을 구축하겠다는 야심찬 선언이 담겨 있씁니다. 이제 과학 데이터는 더 이상 ‘묻히는 정보’가 아니며, 인공지능이 그 데이터를 찾아내고, 해석하며, 연결시켜 새로운 발견의 연료로 바꾼다는 것입니다. 누구나 자신의 연구를 업로드할 수 있는 프런티어스 웹사이트에는 10월14일 오후 5시 기준 228개의 저널들과 63만876개의 논문(articles)이 올라와 있는데, 빠른 속도로 정보량이 늘어나고 있습니다.
프런티어스(Frontiers)의 CEO는 FAIR²가 가져올 변화를 이렇게 강조합니다.
“이제 어떤 데이터도, 어떤 발견도 사라질 이유가 없습니다. 모든 연구가 과학을 움직이는 에너지가 될 수 있습니다. 그것이 바로 FAIR²가 여는 새로운 과학의 시대입니다.”
임삼진 객원기자 isj2020@daum.net