소버린 AI: 프롬 스크래치를 둘러싼 혼란
정부가 추진 중인 국가 AI 파운데이션 모델 사업은 독자성과 소버린 AI를 강조했지만, 정작 그 기준은 명확히 정의되지 않았다. 프롬 스크래치 논란을 계기로 업계와 언론, 기업 간 해석이 엇갈리며 혼란이 커졌다. 이 글은 업스테이지와 네이버 사례를 통해 문제의 본질이 기술이 아닌 정의가 부재했음을 짚고, 프로젝트 성공을 위한 명확한 기준과 투명한 검증의 필요성을 제안한다.
프롤로그: 정의되지 않은 기준
2026년 1월 현재, 정부가 1월 5일부터 15일까지 국가 AI 파운데이션 모델 1차 평가를 진행 중이다. 네이버, 업스테이지, SKT, LG, NC 중 하나가 탈락한다. 평가 기준은 무엇일까? 성능? 기술력? 독자성? 그 '독자성'이란 게 정확히 뭘까? 정부는 이 질문에 명확히 답한 적이 없다. 그래서 5개월 전부터 논란이 시작됐다.
2천억 원 프로젝트의 시작
2025년 여름, 정부가 2,136억 원을 들여 '독자 AI 파운데이션 모델'을 만들겠다고 발표했다. 챗GPT나 구글의 제미나이처럼 우리도 세계적 수준의 AI를 갖겠다는 목표였다. 2,136억원이 어느 정도 규모인지 비교해보자. OpenAI가 GPT-4를 만드는 데 쓴 돈이 약 630억원에서 1,000억원 사이로 추정된다. 우리 예산이 그보다 2배 이상 많다.
하지만 단순 비교는 어렵다. 정부 지원금은 GPU 임차(1,576억원), 데이터 공동구매·가공(약 328억원), 인재 유치 지원 등으로 나뉘고 각 팀은 기업 규모와 오픈소스 공개 수준에 따라 자부담금을 내야 한다. 게다가 6개월마다 평가를 거쳐 팀이 하나씩 탈락하는 구조다. 경쟁을 통해 집중하겠다는 전략이다.
2025년 8월 5일, 최종 5개 팀이 선정됐다. 그런데 그로부터 5개월 뒤인 2026년 새해 벽두부터 논란이 터졌다. 업스테이지는 중국 모델을 복사했다는 의혹에 휩싸였고, 네이버는 중국산 부품을 사용했다는 지적을 받았다.
논란의 핵심은 '프롬 스크래치(from scratch)'였다. 처음부터 직접 만들었느냐, 아니냐. 그런데 정부는 언제 이걸 기준으로 제시했을까?
정부가 말한 것, 말하지 않은 것
과기정통부가 2025년 6월 발표한 공모 공고문을 확인해보면 '글로벌 파급력 있는 국내 독자 AI', '기술 주권 확보', '소버린 AI' 같은 표현들이 나온다. 하지만 그게 구체적으로 무엇을 의미하는지는 단 한 줄도 설명이 없다. 이 때까지만 해도 프롬 스크래치라는 단어는 등장하지 않았다.
발표평가 기준을 보면 '기술력 및 개발경험'이 40점으로 가장 큰 배점이었다. 개발목표 우수성 30점, 개발 전략·기술 우수성 30점이 그 뒤를 이었다. 하지만 이 기술력이 구체적으로 무엇을 의미하는지는 불분명했다.
2025년 8월 5일, 5개 팀 선정을 발표하며 과기정통부가 평가 결과 문서에서 처음으로 '프롬 스크래치'를 언급했다. "5개의 정예팀 모두... 처음부터(프롬 스크래치(From Scratch)) 시작하여 인공 지능 기초 모형을 개발, 확보하고자 하는 자국 인공 지능(소버린 AI)의 본질을 지향한 것으로 평가된다."
여기서 주목할 점이 있다. 이건 선정 기준이 아니라 선정 이유였다. "프롬 스크래치로 해야 선정된다"가 아니라 "선정된 팀들을 보니 프롬 스크래치를 지향하더라"는 사후 평가였다.
그런데 업계와 언론은 이를 다르게 받아들였다. 7월 말부터 "프롬 스크래치가 핵심 기준"이라고 보도하기 시작했다. 기업들도 앞다퉈 "우리는 프롬 스크래치로 만들었다"고 홍보했다. 한 언론은 이렇게 썼다: "너도 나도 프롬 스크래치(From Scratch) 방식이래요."
5개월 뒤 업스테이지와 네이버를 둘러싼 논란이 터졌을 때 프롬 스크래치는 이미 누구도 의심하지 않는 기준이 되어 있었다. 정부가 기술력을 최고 배점으로 두었지만 정의하지 않았고, 선정 후 프롬 스크래치 지향을 언급했고, 업계가 이를 핵심 기준으로 받아들였다. 이 과정에서 프레임이 만들어졌다.
프롬 스크래치가 의미하는 것
프롬 스크래치는 본래 18세기 경기장에서 나온 말이다. 당시 사람들이 출발선을 땅바닥에 긁어서(scratch) 그었고, 거기서부터(from) 시작한다는 뜻이었다. AI 개발에서 프롬 스크래치는 기존 모델의 학습 결과를 전혀 쓰지 않고 완전히 백지 상태에서 시작하는 것을 의미한다. 시간도 오래 걸리고, 컴퓨팅 자원도 엄청나게 든다.
그런데 왜 이게 중요할까. 스마트폰으로 비유해보자. 삼성 갤럭시가 구글의 안드로이드 OS를 쓴다. 만약 미국이 "안드로이드 더 이상 못 쓰게"라고 하면? 삼성폰은 그날부터 먹통이다. 실제로 화웨이가 그렇게 됐다.
AI도 비슷하다. 네이버가 중국 알리바바의 인코더를 쓴다는 건, 스마트폰의 카메라 앱을 중국 것으로 쓰는 것과 비슷하다. 평소엔 문제없지만 관계가 틀어지면? 프롬 스크래치는 이런 위험에서 벗어나는 것이다. 물론 대가가 있다. 개발 시간도 오래 걸리고 초기엔 성능도 떨어질 수 있다.
정부가 '독자'와 '소버린'을 강조하고 '기술력'에 최고 배점을 준 건 아마 이런 이유였을 것이다. 하지만 그 의도를 명확히 밝히지 않았다.
업스테이지와 네이버 논란
2026년 1월 1일, 경쟁사인 사이오닉AI의 대표가 SNS에 의혹을 제기했다. 업스테이지가 만든 AI 모델이 중국 모델과 96.8%나 똑같다는 것이었다.
업스테이지는 즉각 반박했다. 다음 날 바로 공개 검증회를 열었다. 핵심 증거가 '학습 곡선'이었다. 진짜 처음부터 만든 AI는 초기에 성적이 형편없다가 점차 좋아진다. 업스테이지 모델이 정확히 그런 패턴을 보였다. 통계적으로도 96.8%라는 수치는 전체 모델의 0.0004%에 해당하는 극히 일부 파라미터였다. 의혹을 제기한 대표가 사과했다. "엄밀한 검증 없이 의혹을 제기해 혼란을 야기했다"고 했다.
일주일 뒤 네이버 차례였다. 하이퍼클로바X 모델이 중국 알리바바의 인코더를 사용했다는 분석이 나왔다. 이미지와 음성을 인식하는 부품이 중국 Qwen 2.5 모델 것과 99.51% 일치한다는 것이었다.
네이버는 처음부터 인정했다. "비전 인코더와 오디오 인코더는 시각, 청각 정보를 모델이 이해할 수 있는 신호로 변환하는 감각기관 역할을 합니다. 검증된 외부 인코더를 전략적으로 채택한 것입니다. AI의 핵심인 파운데이션 모델, 즉 추론 엔진은 100% 자체 기술로 개발한 프롬 스크래치입니다."
네이버 논리에도 일리가 있다. 글로벌 AI 기업들도 표준화된 검증 모듈은 공유한다. 하지만 서강대 장두성 교수는 "전형적인 프롬 스크래치는 아니지만, 정부가 구체적 기준을 제시한 적이 없다"고 지적했다.
업스테이지는 의혹 제기부터 공개 검증, 입증, 사과까지 투명하게 진행됐다. 네이버는 사실을 인정하되 "핵심은 우리 것"이라는 입장이다. 두 사례 모두 결국 같은 질문으로 귀결된다. 정부가 원하는 '독자성'이 정확히 무엇인가?
진짜 문제: 정의의 부재
이 논란의 핵심은 기술이 아니다. 정의의 부재다.
정부는 독자, 주권, 소버린이라는 추상적 단어만 던졌다. 기술력에 최고 배점(40점)을 줬지만 그게 무엇을 의미하는지 구체적으로 설명하지 않았다. 선정 발표 때 '프롬 스크래치 지향'을 언급했지만, 그게 필수 조건인지 평가 요소인지조차 불명확했다.
프롬 스크래치가 정확히 무엇을 의미하는지 어디까지 직접 만들어야 하는지 어떤 외부 기술은 써도 되는지 명시하지 않았다. 업계와 언론이 이 애매함을 각자 해석했다. 그래서 "프롬 스크래치가 핵심 기준"이라는 프레임이 만들어졌고, 기업들이 그 프레임 안에서 경쟁했다.
5개월 뒤 논란이 터졌을 때, 모두가 프롬 스크래치를 기준으로 비판했다. 정부가 명확히 정의한 적 없는 기준으로.
이 프로젝트가 성공하려면
정부가 해야 할 일은 명확하다.
첫째, 의도를 분명히 밝혀야 한다. 이 프로젝트의 진짜 목적이 성능 좋은 AI인지, 우리가 통제할 수 있는 AI인지 솔직히 말해야 한다. 기술 주권과 안보가 핵심이라면 그렇게 말하고 성능과 실용성이 우선이라면 그것도 명확히 해야 한다.
둘째, 구체적 기준을 만들되 단계별로 차등화해야 한다. 전문가들이 제안한 T등급 체계 같은 걸 참고할 수 있다. T1-T2는 파인 튜닝 모델, T3는 CPT, T4는 프롬 스크래치, T5는 커스텀 아키텍처, T6는 풀스택으로 나누고, 각 등급별로 지원 수준을 달리하는 것이다.
셋째, 프롬 스크래치의 정의를 명확히 해야 한다. 어디까지가 핵심이고 어디까지는 외부 기술 사용이 가능한지 선을 그어야 한다. 예를 들어 핵심 추론 엔진, 한국어 처리 모듈, 보안 관련 부분은 100% 자체 개발을 필수로 하고, 범용 인코더, 디코더는 표준 오픈소스 활용을 가능하게 하되 출처 명시와 대체 가능성 확보를 조건으로 거는 식이다.
넷째, 검증 시스템을 구축해야 한다. 기업들에게 기술 보고서, 학습 로그, 사용 모듈 목록을 의무적으로 제출하게 하고, 독립적 전문가 패널이 이를 검증해 결과를 공개해야 한다. 투명성이 신뢰를 만든다.
우리가 기대할 수 있는 미래
중국이나 미국 기술에 의존하지 않고 우리 힘으로 AI를 만들 수 있다면 그건 분명 가치 있는 일이다. 병원에서 의사가 한국형 AI로 진단서를 작성하고 법무법인에서 변호사가 한국 판례 검색을 AI에게 맡기고 중소기업이 저렴한 가격에 한국어 고객 상담 AI를 쓰는 미래를 상상해볼 수 있다.
하지만 그러려면 명확한 목표와 투명한 과정이 필요하다. 정답은 아마 중간 어디쯤일 것이다. 핵심은 지키되 주변은 유연하게 자립과 효율의 균형을 찾는 것. 하지만 그 균형점을 어디에 둘지는 먼저 명확히 정하고 투명하게 실행하고 제대로 검증해야 한다.
우리가 지켜봐야 할 순간들
이 프로젝트는 아직 진행 중이다. 2025년 12월 30일, 5개 팀이 코엑스에서 1차 발표회를 열었다. 정부가 1월 5일부터 15일까지 1차 평가를 진행 중이다. 5개에서 4개로 줄어든다. 2026년 중반에 2차 평가가 있고 2027년에 최종 선정이 있다.
각 평가 때마다 우리가 물어야 할 질문은 간단하다. "실제로 써봤을 때 쓸만한가?" "ChatGPT보다 저렴한가?" "한국어는 더 잘하나?" 기술적 세부사항은 전문가들이 검증할 일이다. 우리는 결과물을 보면 된다.
에필로그: 투명성이 만드는 신뢰
기술 경쟁의 핵심은 팩트와 투명성이다. 의도가 무엇이든, 기준이 무엇이든, 과정이 투명하고 결과가 검증 가능하면 신뢰가 생긴다. 그 신뢰 위에서 진짜 경쟁력 있는 한국 AI가 나올 수 있다.
정부가 독자와 소버린을 강조하고 기술력에 최고 배점을 준 데는 분명 이유가 있었을 것이다. 기업들도 각자의 방식으로 그 목표에 다가가려 노력했을 것이다. 이제 필요한 건 명확한 정의와 투명한 검증이다.