증권사 보고서에 담긴 텍스트를 인공지능(AI)으로 분석해보니 경기를 예측하는 데 유용한 것으로 나타났다. 특히 증권가의 코스피 전망치 등 숫자로 된 정보에 비해 텍스트의 예측력이 월등한 것으로 분석됐다.
16일 한국은행이 발표한 이슈노트를 보면, 서범석 거시모형팀 과장은 증권사 보고서를 빅데이터로 취합해 새로운 정량 지표를 만들었다. 2019~2022년 증권사 52곳에서 발간한 기업 분석 보고서 12만8천건을 이용했으며, 보고서에 있는 숫자는 모두 제거한 뒤 정성적 정보만 활용했다.
먼저 보고서의 논조를 통해 산업별 업황을 확인할 수 있는 것으로 나타났다. 서 과장은 증권사 보고서의 각 문장을 긍정과 부정, 중립으로 분류한 뒤 이를 수치화해 분기별 ‘텍스트 기반 업황 지수’를 산출했다. 이렇게 만든 업종별 지수와 코스피 산업별 지수 간 시차 상관계수는 0.5∼0.9 수준이었다. 시차 상관계수가 1이면 두 지수가 시차를 두고 완전히 같이 움직인다는 뜻이다. 전자·영상·통신장비와 화학, 금융, 건설 등에서는 1개 분기의 선행성도 확인됐다. 올해 1분기 텍스트 지수를 통해 2분기 실제 업황을 어느 정도 예측할 수 있다는 얘기다.
전 산업 텍스트 업황 지수는 거시경제 지표를 예측하는 데 유용한 것으로도 확인됐다. 특히 텍스트 지수는 경기선행지수 순환변동치를 유의미하게 예측할 수 있는 반면, 증권가 코스피 전망치(컨센서스)는 그렇지 못한 것으로 나타났다. 증권사 보고서의 숫자보다 텍스트에 더 유용한 정보가 담겨 있을 수 있다는 얘기다. 텍스트 지수는 실질 국내총생산(GDP) 성장률(전년 동기 대비), 기업경기실사지수(BSI)와도 0.7∼0.9 수준의 시차 상관계수를 갖는 것으로 나타났다. 텍스트 지수가 1∼2개 분기 선행했다.
서 과장은 “텍스트를 이용한 보다 깊이 있는 경제 분석을 위해서는 경제이론 등 배경지식과 연결해 분석할 필요가 있다”며 “이를 위해서는 지피티(GPT·사전 훈련된 생성 변환기) 등과 같은 거대 통계 모형의 구축이 필요할 것으로 사료된다”고 했다.
이재연 기자
jay@hani.co.kr