2일 강남역 오피스에서 ‘솔라 오픈’ 현장검증회 실시
모델 학습 로그·체크포인트 전면 공개…‘LayerNorm 유사성’ 통계적 착시로 반박
토크나이저·코드 독립성 확인…허깅페이스 코드 활용은 아파치 2.0 라이선스 준수
김성훈 업스테이지 대표가 2일 강남오피스에서 프롬 스크래치 논란에 대해 전면 공개 검증을 하고 있다.ⓒ업스테이지
업스테이지는 자사 LLM(거대언어모델) 프롬 스크래치 논란에 대해 2일 전면 공개 검증을 실시했다고 밝혔다. 프롬 스크래치란 기존 모델이나 데이터를 활용하지 않고 처음부터 독자적으로 AI 모델을 개발하는 방식을 말한다.
김성훈 업스테이지 대표는 이날 강남오피스에서 업계 및 정부 관계자 70여 명을 대상으로 현장 설명을 통해 해당 주장이 사실이 아님을 증명하고 사과를 촉구했다.
앞서 지난 1일 사이오닉AI의 고석현 CEO는 업스테이지의 독자 파운데이션 모델 솔라 오픈 100B가 중국 기업 Z.ai의 모델(GML-4.5-Air)을 기반으로 개발된 파생 모델이라고 주장했다. 이날 공개 검증은 고 CEO의 주장을 반박하기 위해 마련됐다.
현장은 유튜브 생중계를 통해 약 2000여 명이 동시 시청했으며, 모델 학습 로그와 체크포인트 등 개발 관련 주요 데이터를 모두 공개됐다.
이 자리에서 업스테이지는 일각에서 제기한 ‘LayerNorm(층 정규화)’ 유사성을 근거로 타 모델의 가중치를 재사용했다는 주장은 통계적 착시에 불과하다고 설명했다.
해당 구간은 모델 전체의 약 0.0004%에 불과한 미세 영역으로, 오히려 업스테이지 '솔라 오픈'의 99.9996%가 타 모델과 완전히 상이함을 보여주는 역설적 지표라고 주장했다.
LayerNorm 유사성 판단에 사용된 ‘코사인 유사도’ 역시 적절한 비교 기준이 아니라고 강조했다.
코사인 유사도는 벡터의 방향만 비교하는 단순 지표로, 통상 언어모델들의 LayerNorm은 비슷한 구조와 특성을 공유하기 때문에 독립적인 모델 간 유사도가 높은 값으로 나오는 것이 자연스러운 현상이라는 설명이다.
업스테이지는 더 정확한 비교를 위해 정규화를 통한 모델 특성을 반영하는 ‘피어슨 상관계수’로 재분석한 결과, 솔라 오픈과 타 모델 간 패턴이 전혀 일치하지 않는다고 했다. 이는 솔라 오픈이 타 모델의 가중치를 재사용하지 않은 독립적 모델임을 뒷받침하는 통계적 근거다.
'솔라 오픈'이 타 모델의 토크나이저를 그대로 사용했다는 주장 역시 사실과 다르다고 밝혔다.
해당 모델의 어휘수는 약 15만개, 솔라 오픈은 19만6000개이며, 실제 공통 어휘는 약 8만개(41%)에 불과하다. 동일 계열 토크나이저라면 일반적으로 70% 이상 어휘가 중복되므로, 이는 솔라 오픈이 독자적으로 구축한 별개의 토크나이저임을 입증하는 정량적 근거라고 했다.
특정 모델과 구조·코드가 유사하다는 지적 역시 기술적 현실과 전혀 맞지 않는다고 주장했다.
업스테이지를 포함한 주요 오픈소스 LLM 개발사들은 학습용 코드를 외부에 공개하지 않는다. 공개된 모델 카드나 구조 설명을 참고해 연구 방향의 아이디어를 얻는 것은 가능하지만, 접근 자체가 불가능한 학습 코드를 재사용해 모델을 개발한다는 주장은 기술적으로 성립할 수 없다는 것이 업계의 공통된 인식이다.
특정 모델의 소스코드를 가져와 라이선스를 조작했다는 의혹도 사실과 다르다고 강조했다.
업스테이지는 더 많은 개발자들이 솔라 오픈을 쉽게 써볼 수 있도록 인퍼런스 코드를 공개했으며, 이 과정에서 서빙 호환성을 높이기 위해 허깅페이스의 공개 오픈소스 코드베이스 일부를 활용했다고 밝혔다.
이는 누구나 사용할 수 있는 ‘아파치 2.0(Apache 2.0)’ 라이선스에 따라 통상적으로 사용되는 것으로, 해당 라이선스 출처를 정확히 표기하기 위해 문구를 업데이트한 것이라고 설명했다.
김성훈 대표는 “의견을 주고 받는 건강한 토론은 환영하나 이와 같은 허위 사실을 단정적으로 전달하는 행위는 AI3강을 향해 최선을 다하고 있는 업스테이지와 정부 노력의 의미를 심각하게 훼손하는 것”이라며 “앞으로도 업스테이지는 투명한 기술 공개를 바탕으로 글로벌 최고 수준의 기술력을 증명하고 국내 AI생태계 확장에 힘쓰겠다”고 밝혔다.
최초 의혹을 제기한 해당 글은 삭제된 상태다.
0
0
기사 공유
댓글
댓글 쓰기