[뉴스토마토 신상민 기자] 정부가 추진 중인 국가대표 인공지능(AI) 선발전이 시작부터 '차이나 리스크'라는 암초를 만났습니다. 해외 기술에 의존하지 않고 '소버린 AI'를 확보하겠다는 취지로 출범한 '독자 AI 파운데이션 모델 프로젝트'가 정작 초기 단계에서부터 모델 독자성을 둘러싼 논란에 휘말린 겁니다. 독자 AI에 대한 정의가 불분명한 만큼, 이와 관련해 정부 차원의 명확한 기준이 필요하다는 조언이 나옵니다.
네이버클라우드·업스테이지, 모델 독자성 논란
문제는 평가를 앞둔 초반부터 독자 AI라는 정의 자체가 흔들리고 있다는 점입니다. 네이버클라우드가 1차 결과물로 공개한 모델을 두고, 일부 분석에서는 네이버클라우드의 '하이퍼클로바X 시드 32B 싱크 모델'과 알리바바의 '큐웬 2.4' 계열 언어 모델 간 내부 구조 유사성이 높게 나타났다는 분석이 제기됐습니다.
두 모델의 학습 결과를 좌우하는 '가중치'와 이미지 인식에 사용되는 '비전 인코더'를 비교한 결과, 모델 판단 구조의 방향성을 나타내는 '코사인 유사도'와 수치 변화 패턴의 상관관계를 보여주는 '피어슨 상관계수'가 모두 높은 수준을 기록했다는 겁니다. 일각에서는 두 모델의 학습 방식과 내부 계산 구조가 상당 부분 유사할 가능성을 보여주는 정황으로 해석하고 있습니다.
이에 대해 네이버클라우드는 글로벌 기술 생태계와의 호환성과 효율성을 고려해 검증된 외부 인코더를 전략적으로 활용했을 뿐, 파운데이션 모델의 핵심 구조와 학습은 자체 기술이라고 밝혔습니다. 일부 코드나 모듈의 활용이 기술 종속이나 독자성 훼손으로 이어지는 것은 아니라는 입장입니다.
이보다 앞서 업스테이지가 개발한 '솔라 오픈 100B' 역시 중국 모델에서 파생된 것 아니냐는 의혹에 휘말린 바 있습니다. 모델 내부 조정값 가운데 하나인 '레이어놈(LayerNorm)' 파라미터가 다른 AI 모델과 유사하다는 주장이 논란이 됐는데요. 레이어놈은 AI가 계산 과정에서 값의 균형을 맞추는 역할을 하는 요소로, 학습 과정에서 각 모델 고유의 특성이 반영되는 부분으로 알려져 있습니다.
이후 업스테이지가 외부 검증을 요청하고 학습 과정과 관련된 로그를 공개하면서 논란 다소 수그러들었습니다. 하지만 외부 모델에 의존하지 않고 처음부터 자체적으로 학습했다는 판단 기준인 '프롬 스크래치(From Scratch)'가 어디까지인지에 대한 근본적 의문은 여전한 상황입니다.
정부는 사업 공모 당시 독자 AI 파운데이션 모델의 정의와 관련, 해외 모델을 미세하게 조정한 파생형이 아닌 설계와 사전 학습을 자체 수행한 국산 모델이라 규정했습니다. 다만 실제 개발 현장에서는 언어 모델, 비전 인코더, 오디오 인코더 등 구성 요소가 복합적으로 얽혀 있습니다. 오픈소스 활용이 일반화돼 있는 만큼, 어디까지를 자체 개발로 볼 것인지에 대한 세부 기준도 명확하지 않습니다.
지난달 30일 서울 강남구 코엑스에서 열린 독자 AI 파운데이션 모델 프로젝트 1차 발표회에서 네이버클라우드 부스를 찾은 시민이 AI 아바타 체험을 하고 있다. (사진=뉴시스)
정부 차원의 명확한 독자성 기준 필요
사실 업계는 오픈소스를 일부 활용했다는 이유만으로 독자 모델이 아니라고 단정 짓기는 쉽지 않다고 이야기합니다. 김명주 AI안전연구소 소장은 "현재 소프트웨어 생태계 90% 이상이 오픈소스 기반으로 만들어진다"며 "중요한 것은 핵심적인 아이디어와 구현을 해당 주체가 담당했는지 여부"라고 말했습니다.
김 소장은 "오픈소스 자체가 아닌, 라이선스 관리와 통제가 더 중요하다"라며 "어떤 오픈소스를 썼는지 어떤 라이선스가 적용됐는지 등에 대한 관리 체계에 대한 개념 정립이 선행돼야 한다"고 덧붙였습니다.
그러나 일부 과정에서 오픈소스를 사용했다면 완전한 독자 개발로 설명하지 않고, 출처를 밝혀야 한다는 제언도 나옵니다. 한 AI 업계 관계자는 "정확하게 어떤 소스가 허용됐는지, 오픈하고 이 소스를 파인 튜닝했는지 정도는 밝힐 필요가 있다"고 말했습니다.
아울러 외부 모델 사용 시 편향 요소에 대한 검증, 완화 작업은 반드시 필요하다는 지적인데요. 관계자는 "중국 AI 모델은 중국 법에 따라 사전 검열과 인증 절차를 거치는 구조다. 데이터 학습, 정렬 과정에서 중국 방식의 색채나 편향성이 드러날 가능성이 있다"며 "외부 소스 코드를 활용할 경우 백도어나 숨겨진 코드에 대한 보안성 점검은 반드시 필요하다"고 강조했습니다.
이성엽 고려대 기술경영전문대학원 교수는 "중요 전제는 라이선스 이슈가 없어야 한다는 점"이라며 "해당 오픈소스가 어떤 조건과 제약을 갖고 있는지가 핵심"이라고 설명했습니다.
그러면서 "외부 기술이나 원천 기술을 활용했다 해도 이로 인한 기술 종속이 불가피한 구조라면, 이는 소버린 AI의 취지와 맞지 않는다"라며 "정부 차원에서 기준을 명확히 설정하는 작업이 필요하다"고 조언했습니다.
배경훈 부총리 겸 과학기술정보통신부 장관(왼쪽 다섯번째부터), 하정우 청와대 AI미래기획수석 등이 지난달 30일 오후 서울 강남구 코엑스에서 열린 독자 AI 파운데이션 모델 프로젝트 1차 발표회에 참석해 기념 촬영을 하고 있다. (사진=뉴시스)
신상민 기자 lmez0810@etomato.com