글로벌 최대 규모 이미지 텍스트 멀티모달 데이터셋 내년 공개
다음과 카카오톡 이미지 검색 등에 선적용
교육분야, 신약개발도 초거대 AI 혁신 추진, 내년 구체화
카카오브레인이 글로벌 최대 규모 이미지 텍스트 멀티모달 데이터셋을 구축해 외부 파트너들과 초거대 인공지능(AI) 생태계 구축에 나선다.
김일두 카카오브레인 대표는 20일 개최된 온라인 기자 간담회를 통해초거대 AI 로드맵과 내년 핵심 기술 연구 계획, 방향성 등을 설명했다.
김일두 대표는 “앞으로 글로벌 최대 규모의 ‘이미지 텍스트 멀티모달(multi-modal) 데이터셋(이미지와 텍스트를 동시에 이해하는 멀티 모델 데이터 집합체)’을 구축해 공개하겠다”며 “20억건의 데이터셋을 구축해 이미지와 텍스트를 동시에 이해할 수 있는 모델을 내년 1월 일부 공개할 것"이라고 말했다.
이어 “글로벌 연구에서 도전하기 어려운 영역이지만 이게 가능해지면 다양한 연구사례들, 공동체 내에 연구 적용 가능하다”며 “다음 이미지 검색, 카카오톡 내 이미지 검색, 카카오 내 다양한 쇼핑 검색 등 선적용 가능할 것으로 보여진다”고 설명했다.
앞서 카카오브레인은 초거대 AI ‘민달리(minDALL-E)’를 세계 최대 오픈소스 커뮤니티 깃허브(github)에 공개했다. 또 지난 11월에는 한국어 특화 AI 언어모델 ‘KoGPT’를 선보인 바 있다.
김 대표는 “이미지넷이 나오면서 딥러닝 연구 가속화를 이끈 뒤로 주효한 데이터셋이 공개된 것이 없었다”며 “넥스트 이미지넷 프로젝트를 통해 연구에 기여하고 함께 AI 연구 가속화를 이끌어낼 수 있는 파트너들을 찾아 내년 초 공개할 것”이라고 밝혔다.
최근 초거대 AI가 국내 정보통신기술(ICT) 기업들 간의 격전지로 떠오르면서 주도권 선점을 위해 앞다퉈 연구개발과 상용화에 나서고 있다. 네이버는 지난 5월 AI의 성능과 크기를 보여주는 파라미터(매개변수)가 2040억개에 달하는 초거대 AI 하이퍼클로바를 공개했다.
SK텔레콤은 국립국어원과 한국어에 최적화한 차세대 AI 언어 모델 'GLM'을 개방 중이다.KT도 국내 주요 기업·연구기관과 AI 원팀을 꾸려 초거대 AI 개발에 속도를 내고 있다.
이 가운데 카카오브레인은 자사 초거대 AI 모델을 오픈소스로 공개하며 카카오 공동체 뿐만 아니라 외부 기업들에게도 접근성을 높이고 있다. 아울러 규모 대비 높은 성능도 경쟁력으로 꼽았다.
그는 “카카오브레인은 실제로 실용적으로 쓸 수 있는 대규모의 영역의 언어모델을 중심으로 네이버나 타사의 최고 크기의 언어모델과 성능을 비등한 수준으로 만들기 위해 노력하고 있다”며 “내년 상반기 중에는 그 성능도 업그레이드될 것”이라고 강조했다.
이어 그는 “언어모델만 하는 게 아니라 언어와 이미지를 섞는 등 다양하게 하고 있는 게 차별점이며, 이는 타 사에는 거의 없는 서비스”라고 덧붙였다.
내년 김 대표는 초거대 AI를 교육, 헬스케어 중심으로 혁신사업을 추진할 계획이다. 그는 “사람이 해야되는 역할을 일부 대체하는데 아주 강한 고부가가치를 둘 수 있는 게 교육과 헬스케어다. 접근성은 떨어지는데 고부가가치를 크게 낼 수 있다”고 강조했다.
앞서 카카오브레인은 AI 신약 개발사 ‘갤럭스’에 50억원을 투자해 공동연구를 진행한다고 밝혔다. 갤럭스가 보유한 신약 설계 기술을 카카오브레인의 초거대 AI 모델과 융합해 AI 기반 신약 설계 플랫폼을 구축한다는 계획이다.
김 대표는 “신약개발 프로세스에서 단백질 관련된 문제들을 초거대 AI 모델을 통해 신약개발 프로세스를 혁신적으로 바꿀 것”이라며 “그 과정을 ‘갤럭스’ 스타트업에 집중 투자해 글로벌에서 1등으로 키워보겠단 것”이라고 설명했다.
그는 교육분야에 대해서는 “내년 언어나 코딩교육 분야들을 AI가 도와줌으로써 큰 혁신을 일으킬 수 있겠다는 아이디어가 모이고 있다”며 “주입식 교육이나 공부 과정이 어려운 것들을 AI를 통해 효율성을 높여주거나 즐거움을 극대화할 수 있지 않을까”라고 말했다.
이날 간담회에서 카카오브레인이 초거대 AI 모델을 외부 파트너들에게 공개함으로써 개인정보 유출, 혐오발언 등 문제가 발생할 수 있다는 우려도 제기됐다.
이에 대해 김 대표는 “향후 5년 이상의 긴 호흡을 가야하는 어려운 문제”라며 “카카오브레인에서는 제품에 적용되는 시점에 면밀하게 보기 위해 모델 공개 라이센스에 적용하려면 무조건 컨택을 해달라고 명시하고 있다”고 말했다