AI 메모리 병목 뚫었다…KAIST 참여 ‘터보퀀트’, 최대 6배 압축

KAIST·구글·딥마인드·뉴욕대 공동연구

고용량 중심 AI 반도체 경쟁 전환점 제시

대규모 AI 구동 비용↓…온디바이스 AI 확산 가능성

KAIST 전기 및 전자공학부 한인수 교수.ⓒKAIST

인공지능(AI) 성능을 좌우해온 메모리 병목이 뚫렸다. 한국과학기술원(KAIST)이 참여한 국제 공동연구팀이 최대 6배까지 메모리를 줄이면서도 성능은 유지하는 차세대 알고리즘을 공개하며 AI 산업은 물론 반도체 수요 구조까지 바꿀 기술적 전환점을 제시했다.

고용량 중심에서 고효율 중심으로 전환되면서 AI는 더 저렴해지고 빠르게 확산되는 동시에 반도체 수요 역시 질적으로 고도화될 전망이다.

KAIST는 전기 및 전자공학부 한인수 교수가 참여한 구글 리서치, 딥마인드, 뉴욕대 공동 연구팀이 AI 모델의 고질적인 한계로 꼽혀온 메모리 과부하 문제를 해결할 차세대 양자화 알고리즘 ‘터보퀀트’(TurboQuant)를 공개했다고 27일 밝혔다.

AI 모델은 입력 데이터를 벡터 형태로 바꾼 뒤, 벡터 간 유사도를 계산해 작동한다. 이 과정에서 고정밀 데이터를 사용하기 때문에 막대한 메모리 자원이 필요한 점이 주요 한계로 지적돼 왔다.

터보퀀트는 이러한 고정밀 데이터를 더 적은 비트로 압축해 표현하는 양자화 기술을 활용한다.

쉽게 말해 소수점 데이터를 정수로 근사하는 방식으로, 핵심 정보는 유지하면서도 저장 용량과 연산 부담을 크게 줄이는 기술이다.

이번 연구에서 터보퀀트는 AI 모델 내부 정보를 효율적으로 압축해 정확도 저하를 거의 없이 최대 6배까지 메모리를 절감하는 데 성공했다.

특히 AI 추론 과정에서 가장 큰 장애물로 꼽히는 메모리 병목 문제를 효과적으로 해소한 점이 핵심 성과다.

터보퀀트의 핵심은 두 단계로 나누어진 양자화 구조다. 먼저 1단계에서는 입력 데이터를 무작위로 회전시킨 뒤 각 요소를 개별적으로 양자화한다. 이 과정은 데이터 내 극단값을 줄여 압축 효율을 높이는 역할을 한다. 해당 방식은 한인수 교수가 참여한 기존 연구 폴라퀀트에서도 활용된 바 있다.

이어 2단계에서는 1단계에서 발생한 오차를 다시 한 번 양자화한다. 이때 적용되는 QJL 기법은 데이터를 {-1, 1} 값만으로 표현하는 초경량(1비트) 방식으로, 정보 손실을 최소화하면서도 연산 효율을 극대화할 수 있다.

이러한 기술적 발전은 반도체 메모리 시장에도 중장기적인 활력을 불어넣을 것으로 기대된다.

단기적으로는 동일한 AI 모델을 구동하는 데 필요한 메모리 용량이 줄어들어 수요 성장이 둔화되는 것처럼 보일 수 있으나 전문가들은 오히려 이를 AI 대중화의 기폭제로 보고 있다.

낮아진 메모리 문턱은 스마트폰이나 가전 등 온디바이스 AI 기기부터 대규모 데이터센터에 이르기까지 AI 적용 범위를 비약적으로 넓힐 수 있고 결국 AI 서비스가 일상으로 확산돼 훨씬 더 큰 규모의 서비스에서 새로운 메모리 수요가 창출되는 ‘수요의 질적 고도화’와 ‘양적 팽창’이 동시에 일어날 것으로 기대한다.

특히 터보퀀트의 핵심 기술인 QJL과 폴라퀀트 연구에 KAIST 한인수 교수가 공동 연구자로 참여함으로써 국내 연구진이 글로벌 빅테크의 핵심 AI 알고리즘 개발에 직접 기여했다는 점에서 의미가 크다.

한인수 교수는 “AI 모델의 성능이 커질수록 메모리 사용량이 급격히 증가하는 것이 가장 큰 한계로 지적되어 왔다”며 “연구는 이러한 병목을 효과적으로 줄이면서도 정확도를 유지할 수 있는 새로운 방향을 제시했다”고 설명했다.

이어 “앞으로 대규모 AI 모델을 보다 효율적으로 운영할 수 있는 핵심 기반 기술로 활용될 것으로 기대한다”고 덧붙였다.

#KAIST

#구글리서치

#뉴욕대

#딥마인드

#전기및전자공학부

#카이스트

#터보퀀트

#한국과학기술원

#한인수교수