GDP 예측 정확도 유의미한 향상
“종합·정량화 경기 예측에 활용해야”
뉴스 텍스트 기반 경제지표를 이용해 경기 예측모형을 구축한 결과 대부분 관련 공식 통계와 높은 상관관계를 보이며 공식 통계 대비 0~9개월 선행한 것으로 나타났다.
16일 한국은행은 ‘뉴스 텍스를 이용한 경기예측’ 보고서를 통해 생산, 물가, 주택가격 등 경제적으로 관심이 높은 15개 부문의 뉴스 텍스트 기반 경제지표를 작성, 이같은 결과가 나왔다고 발표했다.
특히 선형 및 비선형 모형 모두 텍스트 지표를 추가한 경우 GDP 예측 정확도가 유의미하게 향상됐다. 이중 신종 코로나바이러스 감염증(코로나19) 영향이 크게 나타났던 2020년 6월 말 기준으로 살펴보면, 공식 통계만 이용한 경우에 비해 텍스트 지표를 추가한 경우 2020년 2분기 GDP 예측치가 관측치에 더 근접하고 여타 경제변수의 변화를 더 잘 포착하는 것으로 파악됐다.
한은은 “1~7개월 선행시점에서 대부분 유의한 인과성을 보이는 등 텍스트 지표가 경기 예측을 위한 중요한 정보를 내포하고 있다”고 평가했다.
‘전망’ 및 ‘예측’ 단어를 포함해 작성한 물가전망 및 주가전망 텍스트 지표는 각각 소비자물가지수 및 코스피지수와 5개월 및 3개월 선행시점에서 0.73 및 0.65의 상관관계를 보였다.
해당 연구는 최근 코로나19, 우크라이나 사태 등 경제 불확실성이 높아지면서 신속한 경기 판단을 위한 빅데이터의 역할이 더욱 중요해짐에 따라 시행됐다.
분석 기간은 2005년 1월부터 올해 3월 중이며, 인터넷 포털사이트에 게재된 경제분야 뉴스기사 중 특정 단어군을 포함하는 문장이 본문에 한번이라도 등장하는 기사들을 추출한 뒤 동 기사들의 기간 중 상대빈도수를 계산했다. 분석 대상은 연간 약 70개 언론사의 100만건 뉴스기사와 문장 기준으로 연간 약 1800만 문장이다.
텍스트 지표를 활용한 단기전망모형은 DFM이 적절한 것으로 평가됐다. DFM은 공식 통계를 이용할 수 없는 상황에서 텍스트 지표 및 요인별 추세를 이용해 각 요인의 예측치를 추정하므로, 텍스트 지표가 각 요인의 대체변수로 적절할 경우 모형 적합도가 향상되고 예측치의 표준오차가 하락한다.
한은은 “뉴스 텍스트는 다양한 전문가의 견해·전망 등 정성적 정보를 포함하고 있으며 실시간으로 입수 가능하므로, 이를 종합하고 정량화해 경기 예측에 활용할 필요가 있다”고 말했다.
이어 “뉴스 텍스트의 정량적 활용은 신속하고 정확한 경기동향 파악 및 경기 예측에 유용하며, 정성적 방법으로 뉴스를 이용하는 것에 비해 휴먼 에러를 줄이는 데도 기여할 것으로 기대한다”고 덧붙였다.