공유하기

카카오톡
블로그
페이스북
X
주소복사

과기정통부, ‘AI 데이터 품질 표준안’ 국내외 표준화 추진


입력 2020.10.05 12:00 수정 2020.10.05 11:48        김은경 기자 (ek@dailian.co.kr)

‘데이터 댐’ 품질 개념·범위·세부 요구사항 마련

정보통신 단체표준화 착수…국제표준안 제안 예정

AI 데이터 구축 단계.ⓒ과학기술정보통신부

과학기술정보통신부는 디지털 뉴딜 ‘데이터 댐’의 핵심자원인 인공지능(AI) 데이터 품질의 개념과 범위, 세부 요구사항 등을 정립한 표준안을 개발하고 국내외 표준화를 추진한다고 5일 밝혔다.


과기정통부는 이를 한국정보통신기술협회(TTA) 단체표준으로 만들기 위해 다음날 한국정보통신기술협회 내의 단체 표준화 기구(TTA PG 1005·인공지능기반기술)에 공식제안할 예정이다. 관련 전문가 등의 의견수렴 절차를 거쳐 내년 6월 최종 채택·확정될 것으로 전망된다.


향후 관련 내용을 국제표준화 성과로도 이어질 수 있도록 추진한다. 이번 표준안에서 AI 데이터 품질을 “AI 기술(모델 및 알고리즘)에 활용되는 데이터가 다양성, 정확성, 유효성 등을 확보해 사용자에게 유용한 가치를 줄 수 있는 수준”으로 정의했다.


이는 데이터가 적정한 절차와 요구사항, 규격 등으로 처리되는지에 따라 좌우되며 AI 기술과 서비스의 성능을 좌우하는 핵심요소다.


하지만 아직 세계적으로 품질 수준이 높지 않은 상황이다. 마이크로소프트나 구글 등이 4~6년 넘게 구축·업데이트해온 유명한 개방 데이터셋도 데이터 정확도가 43~83% 수준에 불과하다. 세계적으로 AI 데이터 품질에 대한 체계적인 방법론이 정립되지 않은 탓이다.


과기정통부는 한국정보통신기술협회와 한국정보화진흥원을 통해 기 개발된 ‘AI 학습용 데이터 구축 및 품질관리 공통기준’을 보완·구체화해 이번에 표준안을 개발했다.


표준안은 자연어처리, 자율자동차, 의료, 농축수산, 제조 등 다양한 분야에서 공통적으로 적용 가능한 범용표준의 형태로 개발됐다.


데이터 품질을 체계적으로 확보하고 상호호환성을 제고할 수 있도록 데이터 수집‧정제‧가공‧품질검증‧활용 등 전주기 단계별로 필요한 표준절차와 품질 요구사항 등을 정의하고 기본적인 데이터 규격을 담고 있다.


구체적으로 ▲원시데이터 수집단계의 다양성·사실성 등의 품질 요구사항과 파일 포맷·해상도 등의 기술 적합성 요구사항 ▲정제단계의 데이터 중복방지 및 비식별화 조치 요구사항 ▲가공단계의 객체 분류체계 및 라벨링 규격 요구사항 ▲품질검수·활용 단계의 유효성 등 검수 요구사항·방법 등으로 구성돼 있다.


과기정통부는 이번에 개발된 표준안을 이미 추경사업 과제에 적용하고 있다.


한국정보통신기술협회 내의 단체 표준화 기구 내의 산·학·연 전문가 의견수렴을 거쳐 신속하게 단체 표준화를 추진한다. 향후 관련 사항을 국립전파연구원 등을 통해 ‘AI 국제표준화회의’에 제안하는 등 국제표준화의 성과로 이어지도록 할 계획이다.


올 연말까지 표준안을 바탕으로 AI 개발자와 공공기관 관계자 등이 데이터 품질을 보다 체계적으로 계획·관리할 수 있도록 하기 위해 자세한 설명 등을 포함하는 ‘AI 데이터 품질관리 가이드’도 개발·배포할 계획이다.

김은경 기자 (ek@dailian.co.kr)
기사 모아 보기 >
0
0
관련기사
김은경 기자가 쓴 기사 더보기

댓글 0

0 / 150
  • 최신순
  • 찬성순
  • 반대순
0 개의 댓글 전체보기