네이버 클라우드·업스테이지 솔라 중국 AI 모델 유사성 논란

정부의 국가대표 AI 모델 프로젝트.

여기에 참여 중인 단체의 자격 논쟁이 이어지고 있다.

업스테이지 중국 모델 유사성 논란

인공지능 스타트업 기업인 업스테이지.

이들이 개발한 AI 파운데이션 모델.

이게 중국의 모델을 베꼈단 주장이 나온다.

이것에 대해서 업스 측은 사실과는 다른 주장이라고 전했다.

그리고 공개 검증회를 열겠다고 대답했다.

이들은 지난해 8월 국가대표 AI에 선발됐다.

지난 1일 AI 스타트업 사이오닉 AI 최고 경영자 고석현.

그는 링크드 인에 이렇게 전했다.

국민의 세금이 투입된 프로젝트.

여기에 중국 모델을 복사해서 미세 조정한 결과물.

이걸로 추정되는 모델이 제출된 건 상당히 유감이다.

그는 업스테이지 측이 국대 AI 1차 평가에 제출한 모델.

이것과 중국의 AI 모델인 GLM 4.5 에어.

이것의 성능을 비교한 분석을 깃허브 리포트에 올렸다.

이 자료엔 업스테이지의 솔라 오픈 100B 모델의 AI 모델 신경망.

이 중에서 특정한 부분이 중국 모델과 96.8% 비슷하다고 나왔다.

사람으로 칠 경우 지문, DNA 등이 거의 일치하는 것과 같다.

이런 이유로 우연히 비슷하게 제작이 됐을 확률은 거의 없다는 것이다.

이 자료에 따르면 두 모델은 MOE 구조가 동일하다.

AI 모델 설계도가 중국 모델과 같단 뜻이다.

이 자료엔 이 선택적 보존이 파생의 결정적인 증거라고 나왔다.

핵심적인 부분은 그대로 유지하고 겉모습만 다시 학습을 시킨 것.

이렇게 새로운 모델처럼 위장을 시켰단 것이다.

이에 업스테이지 대표 김성훈.

그는 바로 댓글을 달고 나서 공개 검증에 참여를 해달라고 요청했다.

그에 따르면 이렇다.

솔라 모델에 대한 관심에 감사드린다.

다음 날 저희 사무실에서 대표님과 업계 전문가.

이들을 초청해서 전체 학습 과정을 설명하고 싶다.

그리고 말씀한 내용에 대해서 설명을 상세히 드리겠다.

그는 자신의 페이스북에도 글을 올렸다.

지난 2일 오후 3시 공개 검증회를 열겠다고 전했다.

솔라 100B가 중국 모델을 복사해서 미세 조정을 거친 것으로 추정된단 글.

이것은 사실과 다르단 걸 알려드린다.

업스테이지는 명백히 프롬 스크래치 학습을 했다.

학습에 쓴 체크 포인트, 실험 로그를 모두 공개할 예정이다.

이어서 깃허브에선 솔라 오픈 100B.

이것이 GLM-4.5 에어에서 파생되지 않았단 제목의 리포트도 올라갔다.

여기엔 이번 사안과 무관한 마이크로소프트 PHI 모델.

이걸 가져와선 앞선 리포트랑 같은 방식으로 비교해 봤다.

그러자 PHI도 GLM 모델과 비교 시 90% 이상 비슷하다.

Layernorm 수치가 비슷하다고 해서 베꼈다.

이런 주장을 하는 것 자체가 잘못된 계산법이라고 지적했다.

키가 같다고 해서 쌍둥이라고 주장해선 안 되는 것.

그리고 그 밖에 세부사항도 살펴봐야 한다는 게 낫단 것이다.

이건 의혹이 불러일으킨 쪽에서 사과를 하며 일단락됐다.

그런데 이어서 네이버 단체에서 중국 모델의 인코더.

이것을 미세조정해서 썼단 주장도 일어났다.

네이버 클라우드 중국 모델 유사성 논란

지난 6일 관련 업계에 따르면 이렇다.

네이버 클라우드의 하이퍼 클로바 X 시드 32B 싱크.

이것이 중국의 알리바바 큐웬 2.4 언어 모델과 비전 인코더 웨이트.

이것의 코사인 유사도랑 피어슨 상관 계수가 99% 가까이 기록됐다.

이런 의혹이 제기됐다.

이에 네이버 클라우드는 중국의 오픈 소스를 쓴 점을 인정했다.

이번 모델에선 글로벌 기술 생태계와의 호환성.

그리고 전체 방식의 효율적 최적화를 고려해서 검증된 외부 인코더를 전략적으로 채택했다.

하지만 이것은 기술적인 자립도 부족이 아닌 이미 표준화가 된 고성능 모듈.

이것을 활용해서 전체 모델의 완성도, 안전성을 높이려는 고도의 엔지니어링 판단이다.

글로벌 AI 업계에서도 이런 방식은 확장성을 위한 보편적인 설계 표준이다.

일각에선 정부가 AI 모델 개발.

이것 관련해서 프롬 스크래치 기준을 규정하지 않았다.

이것이 논란으로 이어진 걸로 본다.

프롬 스크래치란 것은 AI 모델을 처음부터 직접 개발한다는 것을 뜻한다.