Twitter Mood Predicts the Stock Market
author : Johan Bollen, Huina Mao, Xiaojun Zeng
Abstract
행동 경제학(Behavioral Economics)은 감정이 근본적으로 개인의 행동이나 의사 결정에 영향을 미친다고 말한다. 이것은 또한 사회 전반에 적용되는가? 즉, 사회가 공동 의사 결정에 영향을 미치는 기분 또는 상태를 경험할 수 있는가? 그 확장에 의해 대중의 분위기는 경제 지표와 상관이 있고 심지어 예측력이 있습니까? 우리는 매우 큰 스케일의 트위터 피드에서 나온 집단의 기분이 DJIA(Dow Jones Industrial Average) 지수와 상호 관련이 있는지 조사했다. 우리는 OpinionFinder라는 긍정과 부정을 판단하는 툴과 6가지 분위기로 분류하는 GPOMS(Google-Profile of Mood States)라는 툴, 이 두 개의 툴로 트위터 피드를 매일 분석한다. 우리는 2008년 대선과 추수 감사절에 대한 대중의 반응을 탐색하는 능력을 비교해서 분위기 시간 연속의 결과를 교차검증한다. 우리의 결과는 특정 공공 분위기 차원을 포함시켜 DJIA 예측 정확도를 크게 향상시킬 수 있다는 것을 수 가리키지 다른 것은 아닙니다. 우리는 DJIA의 근접한 가치 상하 변화를 매일 예측하는 데 있어서 86.7%의 정확도를 가지고 있고, MAPE(Mean Average Percentage Error)의 감소율은 6%보다 크다.
1. Introduction
주식 시장 예측은 비지니스적으로만 많은 관심을 끌어왔을 뿐만 아니라 연구적으로도 많은 관심을 끌고 있다. 그러나 주식 시장이 정말 예측 가능할까? 주식 시장 예측에 대한 초기 연구들은 Random Walk Theroy와 EMH(Efficient Market Hypothesis)에 기반을 두고 있었다. EMH에 따르면 주식 시장 가격은 현재나 과거의 가격보다는 뉴스 같은 새로운 정보에 의존한다고 한다. 뉴스는 예측이 불가능하기 때문에, 주식 시장 가격은 Random Walk 패턴을 따를 것이며 그 정확도는 50%를 넘을 수 없다.
그러나 점점 더 많은 연구가 EMH를, 특히 사회 경제적 이론과행동 경제학 및 행동 금융의 관점에서 비판적으로 검토했다. 수많은 연구가 주식 시장 가격은 Random Walk를 따르지 않고, 어느 정도 예측할 수 있다는 것을 가리키고 있다. 최근 몇몇 연구들은 뉴스는 예측 불가능할지 모르지만 블로그, 트위터 같은 온라인 소셜 미디어에서 다양한 지표들의 변화를 예측할 수 있는 지표를 추출할 수 있다고 말한다. 이것들은 상상할 수 있고, 또한 주식 시장에도 적용될 것이다. 예를 들어서, Gruhl et al.은 온라인 채팅 활동이 책 판매량을 어떻게 예측하는지 보여주었다. Mishne과 Rijke는 영화 판매량을 예측하기 위해 블로그의 감상평을 이용했다. Liu et al.은 블로그의 감상평을 추출하기 위해 PLSA(Probabilistic Latent Semantic Ananlysis)를 사용하여 미래 상품 판매량을 예측했다. 게다가, 구글 검색은 질병 감염율과 소비자 소비의 초기 지표를 제공하는 것으로 나타났다. Schumaker와 Chen은 경제 긴급 속보와 주식 시장 가격 변화의 관계를 조사했다. 가장 최근에, Asu와 Huberman은 영화에 대한 대중의 감정이 어떻게 실제로 Box Office 성적을 예측할 수 있는지에 대한 성명을 발표했다.
대부분의 뉴스가 주식 시장에 영향을 미치는 것과 마찬가지로 대중의 감정 또한 그와 동등하게 중요한 역할을 한다. 우리는 감정이 인간의 의사 결정 과정에 중요한 역할을 한다는 것을 심리학 연구를 통해 알 수 있다. 행동 경제는 경제적 결정은 결정적으로 감정과 분위기에 의해서 결정된다고 입증했다. 그러므로 대중의 감정이나 분위기가 뉴스만큼 주식 시장 가격에 영향을 미친다고 가정하는 것은 충분히 일리가 있다.
그러나, 우리의 목표가 대중의 분위기가 어떻게 주식 시장에 영향을 미치는지 연구하는 것이었다면, 우리는 실용적인 주식 시장 예측을 위해 믿을 수 있고 확장 가능한 조기 평가가 필요합니다. 대중의 감정에 대한 대규모 설문조사는 비용이 매우 크다. 그러므로 몇몇은 축구 경기 결과와 날씨에서 대중의 분위기에 대한 간접적인 평가를 제안한다. 그러나 이 방법의 정확도는 대중의 분위기와 상호 관련있는 것으로 예상되는 지표들로 수행한 방법보다 낮은 것으로 제한된다.
지난 5년 동안, 큰 스케일의 트위터나 블로그 같은 소셜 미디어 컨텐츠에서 대중 분위기의 지표를 뽑아내는 감성 추적 기술에 중요한 발전이 있었다. 트윗(Tweet)은 140자로 제한된 개인 포스트임에도 불구하고, 수 백만개의 트윗은 꽤 정확한 대중 분위기를 말해준다. 이것은 Pulse of Nation과 같은 Real-Time 감정 추적 지표들의 발전을 이끌었다. 사실, 최근 연구들은 온라인 대중 분위기의 지표와 그와 연관된 경제 지표 사이를 연구하기 시작했다.
이 논문에서 우리는 과연 트위터 같은 대중의 분위기가 주식 시장을 예측할 수 있는지를 조사했다. 우리는 2008년 2월 28일부터 12월 19일 까지 트위터에 올라온 대중 분위기의 다양성을 측정하기 위해 두가지 도구를 사용했다. 첫번 째 도구는 OpinionFinder로, 트윗을 매일 시간의 흐름에 따른 대중의 분위기를 긍정 또는 부정으로 분석해준다. 두번 째 도구는 GPOMS, 비슷하게 트윗을 분석하면서 매일 시간의 흐름에 따른 대중 분위기를 6가지로 더 자세히 분류한다. 시간의 흐름에 따른 대중 분위기의 결과는 DJIA 변화를 예측하는 능력을 평가하는 것과 관련이 있다. 우리의 결과는 주식 시장의 표준 예측 모델의 정확성은 특정 분위기가 포함되어 있을 때 크게 증가하는 것을 나타낸다. 특히, OpinionFinder로 측정된 Happiness가 아니라 GPOMS로 측정된 대중 분위기 중 Calm과 Happiness가 많을수록 예측 가능한 결과를 보이는 듯하다.
2. Results
2.1 Data and Methods Overview
우리는 2008년 2월 28일부터 9월 17일 까지 2.7억 명이 기록한 9853498개의 트윗을 수집했다. 모든 구두점을 제거하고 난 뒤, 우리는 모든 같은 날짜의 모든 트윗을 그룹화시켰다. 우리는 “나는 ~라고 느꼈다” 같은, 글쓴이의 분위기를 알 수 있는 명백한 문장을 가진 트윗 계정만 수집했다. 스팸 메세지와 정보를 위한 트윗을 피하기 위해 “http:” 또는 “www.” 정규 표현식과 일치하는 것들을 필터링했다.
Fig.1에서 보이는 것과 같이 우리는 3단계로 진행헀다. 첫 번째 단계에서 우리는 데일리 트윗들을 두 분위기 평가 도구(OpinionFinder와 GPOMS)에 종속시켰다. 그 결과 OpinionFinder에서 한 개, GPOMS에서 여섯 개, 총 일곱 개의 시간에 따른 대중 분위기에 대한 평가를 얻었다. 또한, Yahoo! Finance를 통하여 시간에 다른 DJIA의 종가를 가져왔다. 두 번째 단계에서 GPOMS와 OpinionFinder를 통해 얻은 대중 분위기가 DJIA를 예측할 수 있는지에 대한 가설을 조사했다. 우리는 Granger Causality Ananlysis를 사용하여 n일 이전의 GPOMS와 OF의 지표와 DJIA의 상관성을 조사했다. 세 번째 단계에서 우리는 DJIA 예측 모델의 정확도가 대중 분위기를 포함하게 되었을 때 증가하는지에 대한 가설을 실험하기 위해 Self-Organizing Fuzzy Neural Network를 전개헀다. 우리는 최적의 DJIA 예측 모델을 찾아내는 것에 관심있는게 아니라, 대중 분위기 정보를 포함하게 되었을 때의 예측 모델 정확도의 기준선에 대한 효과를 측정하는데 관심이 있다.
2.2 Generating Public Mood Time Series: OpinionFinder and GPOMS
OpinionFinder는 문장 수준의 감정을 판별하는 데에 사용할 수 있는 공공 소프트웨어이다. OF는 주어진 날의 긍정과 부정의 비율을 판단하는 OF lexion을 이용하여 감정적인 내용의 트윗 집합을 분석하는데 성공적으로 이용되었다. 주어진 기간 동안의 결과는 Gallup의 Consumer Confidence Index와 Reuters/University of Michigan Survery of Consumer의 상관 관계를 보여준다. 우리는 지난 연구에서 OpinionFinder의 Subjective lexion을 채택했다. 우리는 “약함”과 “강함”으로 표시된 OF의 정서 어휘집에서 2718개의 긍정적인 단어와 4912개의 부정적인 단어를 선택했다. 각 트윗에 대해 OF 어휘집으로 긍정적인 단어와 부정적인 단어를 얼마나 포함하고 있는지 판단했다. 같은 날(t)에 쓴 트윗에 대해서 긍정적인 단어나 부정적인 단어의 출현마다 1점씩 올리고 그 비율을 계산했다.
다른 정서 분석 도구들과 같이 OpinionFinder도 긍정과 부정의 2차원적인 정서에만 집착한다. 그러나 이 방법은 인간 정서의 풍부하고 다방면적인 구조를 무시할 것이다. 대중 분위기의 추가적인 모습을 찾아내기 위해 Calm, Alert, Sure, Vital, Kind, Happy의 총 6가지의 다른 모습으로 분석하는 GPOMS라는 이름의 두 번째 분위기 분석 도구를 만들었다. GPOMS의 분위기 차원과 어휘집은 이미 잘 만들어져 있는 POMS-bi라는 정신 분석학 도구에서 유래했다. 트위터 분위기 분석에 사용하기 위하여 우리는 POMS의 본래 72개의 단어를 작업하여 964개의 연관된 용어로 만들었다.(생략 및 의역) 그렇게 964개의 용어로 커진 어휘집은 GPOMS가 좀 더 다양하고 폭 넓게 자연적으로 발생하는 분위기에 관한 단어를 찾아낼 수 있게 해주고 POMS의 분위기 차원들에 연결시키게 해준다. 우리는 각 트윗에 사용된 용어들을 어휘집에 매치키신다. n-gram 용어와 일치하는 각 게시물 용어는 원래의 POMS 용어 (해당 동시 발생 가중치에 따라)로 다시 매핑되고 POMS 채점 테이블을 통해 해당 POMS 차원으로 매핑된다. 따라서 각 POMS 분위기 차원의 점수는 각 용어의 동시 발생 가중치의 가중 합 GPOMS 어휘와 일치했다. 데이터 셋과 방법은 프로젝트 사이트에서 확인 가능하다.
OpinionFinder와 GPOMS 시계열 비교를 가능하게 하기 위해 특정 k일 전후의 슬라이딩 윈도우 내 지역 평균과 표준을 기반으로한 편차를 z-score로 정규화(normalize)합니다. 예를 들어서, $Z_{X_t}$는 시계열 $X_t$의 z-score인데, 다음과 같이 정의된다.(1번 식) :
$\bar{x}(X_{t \pm k})$와 $\sigma(X_{t \pm k})$는 각각 $[t-k, t+k]$ 동안의 평균 편차와 표준 편차를 의미힌다. 이 정규화는 모든 시계에서 제로 평균(zero mean) 중심으로 변동하게 하고 표준 편차의 척도로 표현된다. 언급된 z-score 정규화는 OpinionFinder와 GPOMS의 시계열 비교를 위한 일반적인 척도를 제공하는데 의미가 있다. 그러나, 소위 “in-sample” 편견(bias)라고 불리는 것을 피하기 위해서 우리는 2.5절의 Self-Organizing Fuzzy Neural Network의 예측 정확도를 테스트하는 데 사용되는 분위기와 DJIA 시계열에 z-score 정규화를 적용하지 않습니다. 이런 분석과 우리의 예측의 결과는 시계열과 DJIA의 원시 값에 의존한다.
2.3 Cross-Validating OF and GPOMS Time Series Against Large Socio-Cultural Events
우리는 첫 번째로 OpinionFinder와 GPOMS의 대중 분위기에 대한 다양한 양상 수집 능력을 검증했다. 그러기 위해 2008년 10월 5일부터 2008년 12월 5일까지, 총 2개월의 트윗들에 OF와 GPOMS를 적용해보았다. 이 기간은 미 대선과 추수감사절 같이 대중의 분위기가 특별하고 중요하며 복잡한 영향을 미치는 사회 문화적 이벤트를 포함하고 있다. 그러므로 OpinionFinder와 GPOMS 측정 방식은 이 이벤트들에 대해 예상된 감정적인 반응을 교차 검증될 수 있다. 결과적인 분위기 시계열은 Fig. 2에 보여지고 주어진 (1번 식)대로 z-score로 표현됐다.
Fig. 2는 OpinionFinder가 11월 4일에 있었던 미 대선과 11월 27일 추수감사절에 대해서 대중의 감정적인 반응을 성공적으로 구분해냈다는 것을 보여준다. OpinionFinder는 두 날 모두 짧지만 강한 상승 긍정 분위기를 기록했다.
GPOMS의 결과들은 미 대선(2008년 11월 4일) 전후 3일에 대해 좀 다른 대중 분위기를 보여준다. 2008년 11월 3일은 눈에 띄게 불안감이 크게 상승하여 “Calm”이 매우 떨어진 반응이다. 선거 당일은 “Kind” 점수 뿐만 아니라 “Vital”, “Happy” 점수가 올라간 것과 동시에, 대중의 불안감이 크게 줄어들어 “Calm” 점수의 역전이 큰 특징이다. 후자는 대중이 미 대선에 대해 활기넘치고 행복하고 친근하다는 것을 가리킨다. 11월 5일에는, GPOMS의 수치들이 계속 긍정적인 수준을 나타는데, 특히 “Calm”과 “Sure”, “Vital”, “Happy” 수치가 높다. 11월 5일 이후에는, 모든 분위기 수치들이 기준선(Baseline)으로 돌아갔다. 2008년 11월 27일의 추수감사절에 대한 대중의 분위기는 미 대선과 정반대의 결과를 보여준다. 우리는 추수감사절에 “Happy” 수치가 뾰족하게 높아서, 대중이 행복하다는 것을 알 수 있다. 그러나 다른 분위기 수치들은 변화가 없다. 게다가, 매우 높은 “Happy” 수치는 추수감사절 당일에만 나타나고 전과 후로는 중요한 변화를 찾을 수 없다.
Fig. 2의 시각적인 비교는 GPOMS의 “Happy” 수치가 OpinionFinder로 분석한 분위기와 가장 근접하다는 것을 알 수 있다. GPOMS와 OpinionFinder의 분위기를 정략적으로 결정하려면, 다중 회귀(Multiple Regression)을 사용하여 OpinionFinder의 어휘집과 GPOMS의 6가지 차원에서 얻어진 분위기 트렌드 사이의 상호관계를 실험해야한다. 회귀 모델은 다음과 같다.(2번 식) :
N=6일 때, $X_1$, $X_2$, $X_3$, $X_4$, $X_5$, $X_6$이 “Calm”, “Alert”, “Sure”, “Vital”, “Kind”, “Happy”의 GPOMS 6개 수치를 가리킨다.
다중 선형 회귀(Mulitple Linear Regression)의 결과는 Table. 1(계수와 p-value)에서 볼 수 있고, 그 결과는 ${Y_{OF}}$가 $X_3$(Sure), $X_4$(Vital), $X_6$(Happy)와 크게 관련이 있고, $X_1$(Calm), $X_2$(Alert), $X_5$(Kind)와는 관련이 없다는 것을 가리킨다. 그러므로 우리는 특정 몇개의 GPOMS 수치가 OpinionFinder와 오버랩 된다고 결론을 내렸고, 미 대선 때 처럼 다양한 분위기 같이 모든 분위기가 중요한 역할을 하지는 않는 다는 것도 알 수 있다. 따라서 GPOMS는 OpinionFinder와 같은 일차원적인 분위기 분석 도구에서 분석해내지 못하는 특이한 시각을 제공해준다.
2.4 Bivariate Granger Causality Analysis of Mood vs. DJIA prices
미 대선과 추수감사절 같은 중요한 사회문화적 이벤트에 대한 시계열 분위기 반응을 정립하고 난 후, 우리는 대중의 다른 다양한 분위기가 DJIA 종가와 같은 주식 시장의 변화와 상호관련이 있는지 궁금해졌다. 이 물음에 답하기 위해 우리는 DJIA에 대해 GPOMS와 OpinionFinder로 생성된 일별 시계열에 계량경제학의 Granger Causality Analysis 기법을 적용했다. Granger Causality Analysis는 변수 X가 Y를 발생시키는 경우 Y에서 변경되기 전에 체계적으로 X의 변경이 발생한다는 가정에 의존한다. 따라서 우리는 지체된 X값(lagged value of X)이 통계적으로 Y와 중요환 상호관련을 나타낸다는 것을 찾아낼 것이다. 그러나 상호관련성이 원인과 결과를 입증해주지는 않는다. 그러므로 우리는 Granger Causality Analysis를 [17]과 유사한 방식으로 사용할 것이다. 우리는 실제 인과 관계를 실험하는 것이 아니라 하나의 시계열이 상대방에 대한 예측 정보를 가지고 있는지 없는지를 알아볼 것이다.
우리의 DJIA 시계열($D_t$)은 주식 시장의 일별 변화를 반영하여 정의된다. 예를 를어, 수치들은 t일과 t-1일 사이의 델타 값이다 : $ {D_t} = {DJIA_t} - {DJIA_{t-1}} $ 우리의 분위기 시계열이 주식 시장의 변화를 예측하는지 실험하기 위해서, 우리는 $L_1$(3번 식)과 $L_2$(4번 식) 두 개의 모델로 설명된 변화를 비교해야 한다.
두 번째 모델($L_2$)가 $X_{t-1}$, $\dotsb$, $X_{t-n}$으로 표시된 GPOMS와 OpinionFinder의 분위기 시계열 값과 $D_1$의 지연된 값 n을 사용하는데, 첫 모델은($L_1$) 예측을 위해 $D_t$($D_{t-1}$, $\dotsb$, $D_{t-n}$)의 지연된 값 n만 사용한다.
우리는 미 대선과 추수감사절에 대한 예외적인 대중 분위기 반응을 제외시키기 위해서 2008년 2월 28일부터 11월 3일 까지의 기간을 $L_1$과 $L_2$ 모델을 따라 Granger Causality Analysis를 수행했다. 그 기간에 342,255개의 트윗에 대해 GPOMS와 OpinionFinder의 시계열이 생성되었고, 일일 DJIA도 Yahoo! Finance를 통해 수집되었다.
우리의 Granger Causality Analysis의 결과에 따르면(Table. 2 참조), 우리는 분위기 시계열이 DJIA 값을 예측하지 못한다는 귀무 가설(Null Hypothesis)를 거부할 수 있다. 예를 들어, 높은 레벨의 신뢰도에서 $\beta_{1, 2, \dotsb, n} \neq 0$. 그러나, 이 결과는 오직 하나의 GPOMS 분위기에 적용할 수 있다. 우리는 $X_1$(Calm)이 2~6일 사이에 DJIA와 가장 높은 Granger Causality 관계를 갖는다는 것을 관찰했다. 다른 4개의 GPOMS 분위기는, OpinionFinder 시계열과 마찬가지로, 주식 시장의 변화에 중요한 인과 관계가 없었다.
$X_1$과 DJIA의 상관 관계를 더 자세히 시각화 하기 위해서, Fig. 3의 두 시계열을 구분했다. 같은 스케일을 유지하기 위해서 DJIA 델타 값인 $D_1$과 분위기 값 $X_1$을 (1번 식)처럼 z-score로 바꿨다.
Fig. 3에서 보이는 것과 같이 두 시계열은 자주 겹치거나 같은 방향을 가리키고 있다. (t-3) 이전의 “Calm”의 값의 변화들은 (t-0) 시점의 DJIA 값의 상승과 하강과 비슷하다. 따라서 “Calm”은 DJIA에 관해서 예측가능한 값이다. 사실, 2008년 8월 1일부터 10월 30일 까지의 비교적 짧은 기간의 p-value가 Table. 2의 2008년 2월 28일부터 11월 3일 까지의 값보다 현저히 낮다.
DJIA의 변화에 대한 추적에 실패한 t-3의 분위기 시계열 같은 경우들은 그렇지 않은 경우만큼 유익하다. 특히 밑에서 꼭대기까지 3배가 넘는 표준 편차만큼 솟구친 10월 13일의 두 그래프 사이의 상당한 편차에 주목해야 한다. 그러나 “Calm”의 곡선은 DJIA를 추적하기 시작한 당시에 비교적 평평하게 유지되었습니다. 이 모순은 아마도 10월 13일의 미 연방 준비 제도 이사회의 주요 은행에 대한 구제 금융을 발표하면서 DJIA가 예상 외로 상승했기 때문이다. 그 날의 DJIA와 “Calm” 사이의 편차는 예상치 못한 뉴스가 대중의 기분에 의해 예측되지는 않지만, 여전히 주식 시장 모델링에 있어서 중요한 요소임을 나타낸다.
2.5 Non-Linear Models for Emotion-based Stock Prediction
Granger Causality Analysis는 특정 분위기들과 DJIA 사이의 예측 가능한 관계를 제시한다. 그러나, Granger Causality Analysis는 선형 회귀에 기반하지만 대중 분위기와 주식 시장의 관계는 확실히 비선형적이다. 비선형적 효과들을 더 잘 다루고 대중 분위기 평가가 DJIA 모델을 예측하는 것을 더 잘 평가하기 위해서, 두 세트의 인풋에 기반한 DJIA를 예측하는 SOFNN(Self-Organizing Fuzzy Neural Network)의 성능을 비교했다. 두 세트의 인풋은 (1) 지난 3일간의 DJIA와 (2) 분위기의 시계열의 다양한 순열들과 합쳐진 것이다. 통계학적으로 성능의 상당한 차이는 대중 분위기 측정이 DJIA 값 모델의 예측성을 향상시키지 않는다는 귀무 가설(Null Hypothesis)를 수용하거나 거절할 수 있도록 허락해 준다.
신경망들(Neural Networks)은 이전에도 주식 시장의 형질을 설명하는 비선형적 시계열 데이터를 해독하는 데 사용되어 왔고, 주식 시장 가치를 예측하는 데에도 사용되어 왔다. SOFNN은 Fuzzy System의 쉬운 해독 가능성과 신경망의 학습 능력을 합친 것이다. Grossberg의 ART¸Nigrin의 SONNET 그리고 Hopfield Networ와 같은 유명한 Self-Organizing Neural Network들이 본래는 패턴 분석용으로 개발되었으나, SOFNN은 특별히 회귀(Regression), 함수 근사법(Function Approximation) 그리고 시계열 분석(Time Series Analysis) 문제를 위해 개발되어 왔다. ANFIS, DFNN, GDFNN 같이 유명한 Fuzzy Neural Network 모델들과 비교해보면, SOFNN은 간단하고 효과적인 매개 변수 및 구조 학습 알고리즘 때문에 온라인 학습에 좀 더 효율적인 알고리즘을 제공한다. 우리의 이전 연구들에서 SOFNN은 전기 부하 예측, 환율 예측에서 그 가치를 입증했다.
t일의 DJIA 값을 예측하기 위해, SOFNN의 입력 값들은 지난 n일의 DJIA 값과 분위기의 로우 데이터(z-score로 정규화되지 않은)의 조합을 포함하고 있다. Table. 2에서 볼 수 있듯이, 지난 n-3일의 “Calm”과 DJIA 값의 Granger 인과 관계는 상당히 감소한 결과가 있기 때문에 우리는 n-3을 선택했다. 기록된 모든 하중(load) 값들은 선형적으로 [0, 1]로 조정된다. 이런 진행은 모든 인풋이 정해진 범위 안에서 실행되기 때문에 비슷한 중요도로 다루게 만든다.
SOFNN 모델들은 모델의 수행 능력에 영향을 줄 수 있는 매개 변수의 숫자를 조정하는 것을 요구한다. 우리는 다양한 입력 조합에 걸쳐 동일한 매개 변수 값을 유지하여 모델 성능에 대한 편견없는 비교를 허용했다. 즉, r이 입력 값들의 차원이고 $k_{rmse}$는 사전에 정의된 값인 예상되는 평균 제곱 오차이고, $\delta=0.04$, $\sigma=0.01$, $k_{rmse}=0.05$, $k_d (i)$, $(i=1,\dotsb,r)=0.1$이다.
SOFNN 모델의 일별 DJIA 가격 예측 능력을 적절히 평가하기 위해서, 우리는 훈련과 실험을 위해서 고려중인 기간을 2008년 2월 28일에서 2008년 12월 19일까지 연장한다. 2008년 12월 1일부터 12월 19일이 테스트 기간으로 선정되었고 2008년 2월 28일부터 2008년 11월 28일은 가장 긴 훈련 기간으로 선정 되었다. 왜냐하면 지난 달들의 상당한 변동성을 보인 후 DJIA 가치의 안정화와 비정상적이거나 중요한 사회문화적 사건의 부재로 특정지어졌기 때문이다. Fig. 4는 2008년 가을이 주식 가격의 갑작스런 폭락으로 DJIA 수치가 일반적이지 않은 기간이라는 것을 보여준다. 사실 이 변동성은 다른 기간보다 주식 시장 예측을 어렵게 만들 것이다.
Granger Causality Analysis는 오로지 “Calm”만(그리고 “Happy”도 어느 정도)이 DJIA 값의 Granger-인과적인 수치라는 것을 나타낸다. 그러나, 다른 분위기 수치들과 결합 했을 때 나머지 분위기 수치들도 예측하는데 도움이 되는 정보를 여전히 가지고 있을 수 있다. 예를 들어, “Happy”는 아마도 혼자서는 DJIA와 선형적으로 관련이 없겠지만, 그럼에도 불구하고 “Calm”과 합쳐졌을 때 SOFNN의 예측 정확도를 향상시킬 수 있다. 이 질문들을 명확하게 하기 위해, 우리는 SOFNN의 7가지 입력 변수들의 순열을 조사했다. 첫 번째로 $I_0$는 {t-1, t-2, t-3}의 시간에서 t 시간 까지 DJIA 값을 예측하게 훈련된 소박한 기준선 모델이다 :
$DJIA_{t-3,2,1}$은 DJIA 값을 나타내고, $X_{1,t-3,2,1}$은 t-3, t-2, t-1의 시점에서 GPOMS 분위기 1번(아마도 “Calm”)의 값을 나타낸다. 따라서 $I_{1,3}$, $I_{1,4}$, $I_{1,5}$, $I_{1,6}$은 t-3, t-2, t-1의 시점에서 GPOMS 분위기 3, 4 ,5번과의 DJIA 기록적인 값의 조합을 뜻한다. 예를 들어, $I_{1,6}$은 GPOMS 분위기 1번, 6번과 t-3, t-2, t-1 시점의 DJIA 값들을 포함한 입력의 집합이다.
OpinionFinder에 의해 주어진 긍정/부정의 감정의 값으로 GPOMS 분위기 데이터에 대한 성능을 비교하기 위해서, 우리는 추가적으로 입력 조합을 정의했다. :
정확도 예측은 평균 MAPE(Mean Absolute Percentage Error) 기법과 테스트 기간(2008년 12월 1일 ~ 12월 19일) 동안의 방향 정확도(상승 또는 하강)으로 측정된다. 예측 결과는 Table. 3에서 볼 수 있다.
우리는 이 결과들로부터 몇 개의 결론을 생각할 수 있다. 첫 번째로, OpinionFinder로부터 얻은 긍정/부정의 감정을 추가하는 것은 기록된 DJIA 값만 사용해서 예측하는 것에 비해서 효과가 없었다. 이것은 우리의 Granger Causality Analysis를 확인해주었다.
두 번째로, “Calm”($I_0$)을 추가하는 것이 가장 높은 예측 정확도를 보여주었다. $I_0$와 다른 모든 입력 집합들을 비교해보니, $I_1$을 추가하는 것이 MAPE 값과 방향 정확도에서 상당한 향상을 이끌었다. 세 번째로, $I_{1,3}$와 $I_{1,4}$는 실제로 MAPE와 방향 정확도를 상당히 떨어트렸다. 왜냐하면 $X_3$(Sure)와 $X_4$(Vital)은 DJIA 수치를 측정하는데 도움이 되는 정보를 가지고 있지 않았기 떄문이다. n=3일에 보면 $X_6$(Happy)은 Granger 인과 관계와 연관성이 없다. 그러나 “Calm”과의 조합에서는 더 정확한 SOFNN 예측(MAPE=1.79%)과 방향 정확도(80%)를 만들어낸다.
위에서 언급한 DJIA의 증가와 감소 움직임을 예측하는데 87.6%의 정확도를 달성한 SOFNN의 통계적 유의성을 평가하기 위해, 우리는 우연히 발생한 이 결과의 확률을 계산했다. 이 이항 분포는 매 시도 마다 성공할 확률이 50%인 15 건의 실험에 대해 정확하게 87.6%의 정확한 추측을 달성할 확률은 0.32%란 것을 가리킨다. 데이터 집합의 전체에 걸쳐서(주말을 제외한 2월 28일부터 12월 20일) 우리는 대략 20일의 기간 중 10.9시간을 찾았습니다. 언급된 개연성의 확률은 기간 중의 무작위 20일에 대해 $1-(1-0.0032)^10.9=0.0343$이나 3.4%다. 따라서 SOFNN의 방향 정확도는 우연의 결과도 아니며 특히 실험에 유리한 기간을 선택한 것도 아니다.
게다가, 우리는 다음과 같이 보여지는 Full Model Test F와 Reduced Model R 사이의 중첩된 F-Test와 함께 DJIA에 대한 “Calm”($X_1$)과 “Happy”($X_6$)의 선형 효과(Linear Effect)를 테스트했다.
우리는 $X_1$과 $X_6$의 선형 조합이 $X_1$만 적용했을 떄 보다 안좋은 결과를 가져온다는 것을 가리키는 0.66의 p-value와 0.53의 F-statistic를 알아냈다. SOFNN이 $X_1$과 $X_6$의 조합을 사용할 때 더 정확했기 때문에, 우리는 서로 다른 분위기 사이에는 비선형 관계(Non-Linear Relation)를 확인한다는 결론을 내렸다.
3. Discussion
이 논문에서 우리는 트위터의 매우 많은 트윗들로부터 측정된 분위기가 DJIA 수치와 관련 또는 심지어 예측할 수 있는지 여부를 조사했다. 우리의 결론은 대중 분위기 상태의 변화가 대량의 트위터 피드를 간단한 텍스트 처리 기술을 통해 실제로 추적될 수 있으며, 다양하고 차별화된 방식으로 사회문화적 운전자(driver)에 응답함을 보여준다. 관촬된 7가지 분위기 치수 중 일부는 DJIA의 Granger 원인이다; 이러한 대중 분위기의 변화는 3~4일 후에 발생하는 DJIA 수치 변화와 일치한다. 놀랍게도 우리는 이 현상을 OpinionFinder의 긍정과 부정의 분위기로 관찰하지 않고 GPOMS의 “Calm” 분위기로 측정했다. 따라서, GPOMS로 측정된 대중 분위기의 침착성(Calm)은 OpinionFinder으로 측정된 긍정적인 감정의 일반적인 단계보다 DJIA에 대해 더 예측성이 높다. 게다가, 과거의 DJIA 수치와 우리의 분위기 시계열을 기반으로 훈련된 SOFNN은 대부분의 기본 모델조차도 DJIA 종가를 예측하는 정확성을 크게 증가시킬 수 있었다. SOFNN과 같은 비교적 기본 모델의 성능 향상을 감한할 때, 우리는 뉴스 소스에서 파생된 다른 정보와 다양한 관련 경제 지표들을 포함한 좀 더 정교한 시장 모델에 대해 동등하거나 향상된 점을 찾을 수 있기를 희망한다. 이러한 결과는 기존의 감정 추적 도구 뿐만 아니라 개인이 긍정 또는 부정적 영향, 행복 또는 삶의 만족도를 경험하는 정도를 평가하는 “Self-Reported Subjective Well-Being” 설문조사와 밀접한 관련이 있다. 그런 설문조사들은 상대적으로 시간과 비용이 많이 들어감에도 불구하고 대중 분위기의 측정이 사회 경제적 지표를 평가하는 데에 도움이 되지 않을 수 있다. 그러나, 트윗에 대한 대중 분위기 분석은 자동화가 되어있고 빠르며 비용이 없고, 게다가 이 도구에 매우 많은 표본을 추가하면 다양한 대중 분위기를 측정하는데 최적화된다.
우리의 분석은 향후 연구에서 검토 될 몇 가지 중요한 요소를 인정하지 않는다. 첫 번째로, 우리는 우리의 분석은 어느 특정 지리적 위치나 세계 인구의 부분 집합에 한정되도록 고안되지 않았음을 알린다. 이런 접근은 미국 주식 시장이 세계적으로 개인의 영향을 받기 때문에 적절할 수 있지만, 관찰 기간 중 특정 기간 동안 트위터 사용자는 영어를 주로 사용하고 미국에 국한되어 있다. 트위터 사용자 기반이 점점 더 국제화되고 지리적 위치가 장착된 스마트폰을 사용함에 따라 향후 분석은 지리적 및 문화적 샘플링 오류를 피하기 위해 지역과 언어를 고려해야 한다. 두 번째로, 대중 분위기 상태를 평가하기 위해 서로 다른 두 가지 방법을 사용하여 교차검증을 했음에도 불구하고, 우리는 대중 분위기 상태에 대한 근거(Ground Truth)나 트위터 사용자 커뮤니티에서 대표하는 특정 하위 집단에 대한 지식이 없다. 이 문제는 대중 분위기 상태에 대한 직접 평가에 대한 조사 또는 트위터와 같은 온라인 커뮤니티에서 파생된 조사에 의해서만 해결 될 수 있다. 세 번째로, 이 결과는 트위터 피드의 대중 분위기 상태 측정 사이의 예측 상관 관계를 강력하게 나타내지만, 온라인 대중 분위기 상태를 DJIA 수치와 연결할 수 있는 원인 메커니즘에 대한 정보를 제공하진 않는다. 후자는 대중 분위기 상태와 정보의 관계가 좀 더 자세히 연구해야하는 미래의 연구 과제로 남아 있다. 정보는 매우 쉽고 빠르게 온라인 소셜 네트워킹 환경의 유대에 따라 이동하므로 개인 및 전문 투자자의 투자 전략(및 분위기)에 균등하게 영향을 미칠 것이다. 그러나, 루머나 잘못 된 정보는 “정보 검색(Astroturfing)”과 “Twitter Bombing” 캠페인으로 불리는 것들의 확산에 따라 그다지 효과가 없을 지라도 똑같이 퍼질 수 있다. 이로 인해 전문 투자자의 인프라에 의존할 수 밖에 없는 개인들은 큰 불이익을 받게 되고 실제로 시장 변동성을 증가시킬 수 있다. 결과적으로 우리는 전반적인 시장 안정성을 보일지도 모르지만, “사회 감염(Social Contagion)” 효과로 인한 심각한 파열로 인해 어려움을 겪을 수 있다. 이러한 감염 효과 이외에도 미래의 연구는 개별 투자자들이 과거의 경험으로부터 배우는 능력과 그에 따라 거래 행동을 조절할 수 있는 사회적 및 인지적 효과를 고려해야 할 필요가 있다. 온라인 환경에서의 이런 현상에 대한 조사는 “전산 사회 과학(Computational Social Science)”로 불리는 흥미로운 새로운 연구 분야의 일부다.
4. Analysis
- GPOMS와 OpinionFinder
- 이 분석 도구들은 모두 영어를 분석하는 분석 도구이다.
- 논문에서 언급했듯이 특정 지역이나 인구를 대상으로 한정해놓고 진행한 연구는 아니었지만, 표본들이 대부분 영어를 사용하고 미국에 거주 중이었다.
- 졸업작품에서 한국 시장 주식을 타겟으로 삼을 경우에, 한국어에 대한 구문 분석 도구를 찾거나 만들어야 한다.
- 게다가 구문 분석을 통해서 감정을 판단하는 머신 러닝 분야도 필요해 보인다.
- 위 논문에 따르면 GPOMS의 “Calm” 분위기가 가장 중요한 영향을 끼친다고 했는데, 6가지 감정을 구분하는 기준도 정해야 한다.