한국어 특화 LLM 공개한 KT "정부 AI 파운데이션 모델 참여 준비"

자체 개발한 한국적 AI 모델 ‘믿:음 2.0’ 상업적 활용 가능한 오픈소스로 공개

고품질 한국적 데이터로 언어·문화적 특성 반영한 안전하고 한국적인 AI 구현

KT 기술혁신부문 연구원들이 서초구 KT 우면연구센터에서 믿:음 2.0을 테스트하고 있는 모습ⓒKT

KT가 ‘한국적 AI’의 철학을 담아 자체 개발한 거대언어모델(LLM) ‘믿:음 2.0’을 오는 4일 공개한다. 2023년 '믿:음 1.0'을 공개한 지 2년 만이다.

‘한국적 AI’는 한국의 정신과 방식, 지식을 기반으로 구현해 국내 환경에 최적화된 AI를 의미한다. KT는 믿:음 2.0 공개와 함께 정부가 추진하는 ‘AI 파운데이션 모델’ 사업에도 적극 참여해 이재명 정부가 구상하는 소버린 AI(AI 주권)에 기여하겠다는 의지를 밝혔다.

KT는 3일 오전 'KT AI 기술' 온라인 브리핑을 열고 ‘믿:음 2.0’ 기술을 상세히 소개하는 시간을 가졌다. 설명을 맡은 신동훈 KT Gen AI Lab장(CAIO) 상무는 "한국의 말과 문화를 이해하는 모델을 만드는 것을 목표로 개발해왔다"면서 "믿음 2.0은 한국적 AI에 대한 의지를 반영한 독자 모델"이라고 말했다.

새롭게 선보이는 믿:음 모델은 ▲115억 파라미터 규모의 ‘믿:음 2.0 베이스’ ▲23억 파라미터 규모의 ‘믿:음 2.0 미니’ 2종으로 모두 한국어와 영어를 지원한다.

믿:음 2.0 베이스는 범용 서비스에 적합한 모델로 한국 특화 지식과 문서 기반의 질의 응답에서 강력한 성능을 나타낸다. 믿:음 2.0 미니는 베이스 모델에서 증류한 지식을 학습한 소형 모델이다. 성능을 한층 고도화한 믿:음 2.0 프로 모델도 조만간 선보일 예정이다.

신 상무는 믿:음 2.0 개발에서 합법적인 양질의 데이터를 체계적으로 학습시키는 데 주력했다고 강조했다. 학술적 신뢰도를 확보하기 위해 고려대학교 민족문화연구원과도 협력했다.

그는 "각 도메인을 대표하는 기관·기업과 얼라이언스를 추진해 다양한 고품질 데이터를 수집했다. 라이언스 데이터는 제거하고 상업적 이용이 불가하거나 판단이 모호한 회색 영역의 데이터도 배제했다"며 "도메인별로 데이터를 선별해 학습에 활용하는 체계적인 데이터 믹싱 기법을 썼다"고 말했다.

그러면서 믿:음 모델은 데이터 구축부터 모델 학습까지 전 과정을 자체 기술로 해 저작권 이슈가 없다고 강조했다.

KT는 소버린 AI(AI 주권) 측면에서 믿:음 2.0이 적합한 모델이라고도 밝혔다. KT가 강조하는 소버린 AI 철학은▲데이터 주권의 보장 ▲AI 모델 선택의 자유 ▲한국적 가치와 문화의 반영 ▲책임 있는 AI 구현 등이다.

"KT 믿:음, 스크래치부터 학습…미드트레이닝 수행한 경쟁사 모델과 달라"

이날 경쟁사인 SKT가 발표한 한국어 특화 LLM ‘A.X 4.0’과의 차별점도 언급됐다.

신 상무는 "AI 커뮤니티에서는 경쟁자이자 협력자로 직접적인 비교는 조심스럽다"면서도 "A.X는 720억 파라미터의 대형 모델과 70억 파라미터의 경량 모델로, 우리 모델보다 약 7배 이상 크다. (모델 크기 자체만으로) 성능을 단순 비교하는 것은 큰 의미가 없다"고 말했다.

이어 "믿:음 모델은 스크래치(처음부터 직접 개발)부터 학습한 반면 SKT 모델은 외부 모델을 바탕으로 중간 단계부터 미드트레이닝을 수행했다는 점에서 개발 방식에 차이가 있다"고 덧붙였다.

믿:음 2.0 주요 성능. 'KT AI 기술' 온라인 브리핑 영상 캡처

AI 파운데이션 모델 사업 참여…"AI 수준 높이고 국민들에게 혜택"

KT는 자체 AI 기술을 보유한 만큼 정부가 추진하는 AI 파운데이션 모델 사업에도 참여하겠다는 의지를 보였다. 과학기술정보통신부는 최근 ‘AI 파운데이션 모델’ 사업을 공고하고, 민간과 공공 역량을 결집해 글로벌 AI 기술 의존도를 낮추고 데이터·기술 주권을 확보하겠다는 방침을 밝혔다.

참여 기업과 기관은 각자 컨소시엄을 구성해 오픈소스 공개를 원칙으로 세계적 수준의 한국형 AI 파운데이션 모델을 개발하게 된다. 이 프로젝트는 이재명 정부가 밀고 있는 소버린 AI 정책의 대표적 사례로, 해외 기술 의존도를 줄이고 국내 데이터와 기술로 자립형 AI 생태계를 구축하는 것을 목적으로 한다.

신 상무는 "한국적 가치와 문화를 담아내기 위해 데이터 얼라이언스를 통해 1년여간 구축한 데이터가 독자 AI 파운데이션 구축에 강점이 될 수 있을 것"이라며 "이 모델은 한국의 AI 수준을 높이는 동시에 국민들에게 혜택을 제공할 수 있다"고 강조했다.

KT는 자체 모델 개발 외에 마이크로소프트(MS)와의 협업으로 GPT-4에 한국적 사고를 추가 학습시키는 방식의 모델 개발도 병행중이다.

투 트랙(자체 개발-외부 협업)을 고집하는 이유에 대해 신 상무는 "KT는 자체 기술을 한 번도 포기해야 한다고 생각하지 않았다. 대한민국 통시 산업을 책임지는 기간통신사업자로서 AI 원천 기술을 확보해야 한다고 본다"면서 "고객이 최고 성능의 모델을 통해 AX(AI 전환) 하고자 한다면 그에 부응하는 모델을 제공해야 한다"고 설명했다.

믿:음 2.0 주요 성능. 'KT AI 기술' 온라인 브리핑 영상 캡처

MS와 협업한 GPT 모델도 개발…"한국적 가치 담을 것"

그러면서 기술을 확보하지 못한 부분은 MS와의 협업을 통해 GPT와 같은 모델을 제공하겠다고 밝혔다. 신 상무는 "한국 시장에 맞는 가치와 문화를 갖출 수 있도록 튜닝해 제공하겠다"고 말했다.

다만 출시 시기에 대해서는 말을 아꼈다. 신 상무는 "시기가 지연된다기 보다는 내부적으로 테스트를 진행하면서 성능을 올리는 과정이라고 생각해달라"고 했다.

GPT 공동 작업 모델은 SOTA(State of the Art, 현존 최고 수준 모델) 측면에서, 믿:음 모델은 문서화 작업등 상대적으로 낮은 단계에서 활용될 것으로 예상된다.

신 상무는 "믿:음 2.0은 공공, 금융, 교육, 법률 도메인까지 서비스를 확장할 수 있을 것"이라며 "B2C(기업과 소비자간거래) 서비스는 다양한 각도로 검토중"이라고 말했다.

KT는 앞으로 외부에 공개된 글로벌 기업 모델을 가공하는 것을 포함해 추론 모델, 멀티모달 모델 등 다양한 모델을 순차적으로 공개하겠다는 방침이다.

끝으로 KT는 한국이 소버린 AI를 강화하기 위해서는 데이터 규제를 완화할 필요가 있다고 언급했다.

신 상무는 "국가가 보유한 공공 문서 등이 학습에 적절히 활용될 수 있도록 예산을 투입할 필요가 있다. 이렇게 만들어진 독자 AI 파운데이션 모델을 통해 여러 기업이 다양하게 활용되기를 바란다"고 말했다.

#kt

#소버린ai

#ai

#파운데이션

#skt