통계학 특히 확률론을 이용하여 데이터를 이해하려고 시도하다 보면, 묘한 느낌을 받는 경우가 있습니다. 자연스러운 수식 또는 그래프로 표현했을 뿐인데, 뭔가 철학적인 또는 무언가의 본질과 관련한 이야기와 연결될 수 있습니다. 수학은 철학과 가장 가까운 학문의 하나이며, 수식이나 그래프는 무언가를 추상화한 형태이기 때문입니다. 마치 물리학이나 천문학에 관한 책을 읽다 보면 물질의 본질이 무엇인지, 우주에서 인간이란 무엇인지 다시 한번 생각해 보게 되는 것과 비슷합니다. 최근의 연재에서도 이러한 경우를 살펴본 바 있습니다. 나주사씨의 친구들이 주사위를 굴려 나온 숫자를 관찰하여 숨겨진 주사위가 몇 면인지 추론하는 과정을 확률론으로 설명했습니다. 수식으로 표현했지만, 그 본질은 이성적(rational) 추론이란 무엇인지 설명하는 한 가지 모델이 될 수 있습니다. 합리적인 추론 모델을 세워 현실 문제에 적용하는 기술이 인공 지능의 한 분야인 기계 학습(machine learning; 머신 러닝)입니다. - [중급 23] 숨겨진 주사위는 몇 면일까? (모집단의 추정) - [중급 24] 베이즈 정리와 추론 - 나주사씨의 친구들은 주사위를 어떻게 추정했을까? (고정된 수익률 분포를 완벽하게 아는 경우) 이 글에서는 불확실하다는 것은 무엇인지 한 번 생각해 봅니다. 참고: 통계학적으로 엄밀한 설명이 아닐 수 있습니다. 개인적인 의견입니다. 참고만 하시기 바랍니다. 저도 잘 정리가 되지 않습니다. 주의: 이 글은 특정 상품 또는 특정 전략에 대한 추천의 의도가 없습니다. 이 글에서 제시하는 수치는 과거에 그랬다는 기록이지, 앞으로도 그럴 거라는 예상이 아닙니다. 분석 대상, 기간, 방법에 따라 전혀 다른 결과가 나올 수 있습니다. 데이터 수집, 가공, 해석 단계에서 의도하지 않은 오류가 있을 수 있습니다. 일부 설명은 편의상 현재형으로 기술하지만, 데이터 분석에 대한 설명은 모두 과거형으로 이해해야 합니다. 불확실성이 사라지면 어떻게 될까? 앞서 자사 야구팀이 우승할 때 추가 금리를 제공하는 제일은행과 삼삼은행의 예금에 대해 살펴보았습니다. 야옹이즈의 우승 확률은 절반(50%)이기에 결승전 결과에 따라 포트폴리오는 파란색 또는 오렌지색 선 위에 있는 한 점(사건)의 결과를 얻습니다. 마치 슈뢰딩거의 고양이처럼, 결승전이 끝나기 전까지는 특정 제일은행 예금 비중을 가진 포트폴리오는 두 점에 동시에 확률적으로 위치하는 것입니다. 야옹이즈의 우승 확률이 50%라고 정확하게 알고 있지만, 이번 결승전에서 야옹이즈가 우승할지 여부는 모릅니다. 따라서 야옹이즈의 우승은 불확실성이 있으며, 우승 확률을 이용한 확률 분포로 표현합니다. 투자 성과를 추정하면, 1,038만원 이상이 보장되는 포트폴리오들의 제일은행 예금 비중 범위를 구할 수 있습니다. 그래프에서 보라색 영역입니다. 투자자가 최소화(예를 들어 변동성) 또는 최대화(예를 들어 기대값)하고자 하는 투자 비중은 그 안에서 찾을 수 있습니다. 이 투자 문제에서 야옹이즈의 우승은 값이 정해지지 않은 독립 변수(independent variable)이고, 제일은행과 삼삼은행 예금 금리는 종속 변수(dependent variable)입니다. 종속 변수는 독립 변수의 값이 확정되면 값이 고정됩니다. 제일은행과 삼삼은행 예금에 분산 투자하는 포트폴리오의 성과 역시 야옹이즈 우승의 종속 변수입니다. 원천적으로 불확실성이 있는 변수는 야옹이즈 우승 하나뿐입니다. 포트폴리오 내 제일은행 예금 비중은 변수가 아니라 투자자가 선택하여 고정할 수 있는 값입니다. 합리적인 선택을 위해 모든 가능한 투자 비중을 살펴보고 그중에서 하나를 고르는 것입니다. 야옹이즈가 우승할 확률이 100%라고 하겠습니다. 참고: 정보의 부정확성은 불확실성과 다른 개념입니다. 설명할 수 있을지 모르겠지만, 부정확성에 대해서는 다음 단계에서 다뤄 볼 계획입니다. 그전까지는 모든 정보가 정확하다고 가정합니다. 예를 들어, 야옹이즈가 우승할 확률이 50%이고 정말 그렇다면, 이는 정확한 값(확률 분포)입니다. 야옹이즈가 우승할 확률이 50%인데 40%라고 말하면, 이는 부정확한 값입니다. 이제 그래프를 다시 그려보면 조금 다른 그림이 됩니다. 야옹이즈의 우승이 확실하기에 뱀뱀즈가 이기는 오렌지색 점선으로 표현된 사건은 발생할 수 없습니다. 포트폴리오는 모두 파란색 선 위에 위치하게 되고, 포트폴리오의 기대값을 나타내는 초록색 선과 겹쳐 나타납니다. 두 그래프를 비교해 보면, 보라색 영역으로 표시된 포트폴리오의 선택 범위가 넓어졌습니다. 앞에서는 1,038만원 이상을 얻기 위해 제일은행 예금 비중을 [41.7%, 62.5%] 구간 내에서 선택해야 했지만, 이제는 [41.7%, 100%] 구간 내에서 고를 수 있습니다. 변동성을 최대로 낮추고자 하는 나안정씨는 제일은행 예금에 50% 비중으로 투자해야 항상 1,039만원을 받을 수 있었지만, 야옹이즈 우승이 확실하다면 제일은행 예금에 41.7% 이상으로만 투자하면 됩니다. 예를 들어 제일은행 예금에 75% 비중으로 투자하면 항상 1,045만원 × 75% + 1,033만원 × 25% = 1,042만원을 받을 수 있습니다. 모든 포트폴리오의 변동성이 사라진 것입니다. 불확실성과 포트폴리오의 변동성 야옹이즈의 우승 확률이 50%일 때 제일은행의 예금 금리는 [3.5% × 50%, 4.5% × 50%]입니다. 야옹이즈의 우승 확률이 100%라면 제일은행 예금 금리는 [4.5% × 100%]로 확실하다고 말할 수 있습니다. 그 결과로 포트폴리오의 변동성이 사라졌습니다 이러한 관점에서 확실해진다는 것이 무엇인지 생각해 볼 수 있습니다. 포트폴리오의 변동성이 낮아지는 방향으로 바뀌는 것을 확실해진다고 정의해 볼 수 있습니다. 참고: 통계학적으로 엄밀한 설명은 아닐 수 있습니다. 야옹이즈 우승의 불확실성을 확률 분포로 나타내면 우승 확률이 50%일 때에는 [우승 × 50%, 준우승 × 50%]입니다. 확률 분포가 [우승 × 100%, 준우승 × 0%]라면 확실한 것이 분명합니다. 애매하게 [우승 × 30%, 준우승 × 70%]이라면 [우승 × 50%, 준우승 × 50%]보다 조금 더 확실한 것일까요? 위 그래프는 야옹이즈의 우승 확률이 30%인 경우입니다. 투자자가 선택할 수 있는 포트폴리오의 범위는 이전과 동일합니다. 나안정씨의 선택 역시 이전과 동일하게 제일은행 예금 비중 50%입니다. 기대값을 최대화하려는 고수익씨의 선택은 이전과 달리 제일은행 예금 비중 41.7%입니다. 나안정씨의 선택에는 영향이 없고, 고수익씨의 선택에는 변화가 생겼습니다. 불확실성이 줄어들어 더 확실해진 것일까요? 참고: 글을 적다 보니 저도 헷갈립니다. 이 글에서 [우승 × 50%, 준우승 × 50%], [우승 × 70%, 준우승 × 30%], [우승 × 100%, 준우승 × 0%]는 하나의 세계에서 확률 분포가 변하는 것이 아닙니다. 3개의 평행 세계가 있고, 각각의 야옹이즈 우승 확률 분포가 다르다고 이해하면 됩니다. 각 평행 세계에서의 투자 불확실성을 상대 비교하는 것입니다. 불확실성이 얼마나 다른지 포트폴리오 변동성으로 설명해 봅니다. 참고: 섀넌의 정보 엔트로피(information entropy)로도 논리를 전개해 보려 했지만, 정리가 잘 되지 않아 제외했습니다. 최종 포트폴리오 자산(수익률)의 불확실성을 계산해 봅니다. 불확실성을 측정하는 한 가지 방법은 표준 편차입니다. 참고: 표준 편차가 항상 모든 문제에 있어 불확실성을 표현하는 가장 적절한 표현 방법은 아닐 수 있습니다. 다음은 공통의 하드 제약 조건을 만족하는 제일은행 예금 비중에 대해 야옹이즈 우승 확률에 따른 포트폴리오의 표준 편차를 나타낸 그래프입니다. 맨 아래 표준 편차가 0인 위치에 수평선처럼 있는 파란색 점들은 야옹이즈 우승 확률이 0%인 경우입니다. 야옹이즈 우승 확률이 점차 높아지면 포트폴리오 표준 편차는 점차 증가합니다. 우승 확률이 50%인 경우에 표준 편차가 가장 높아지고, 그 이상이 되면 표준 편차가 감소하기 시작합니다. 최종적으로 우승 확률이 100%가 되면 표준 편차는 다시 0이 됩니다. 참고: 파이썬은 기본 설정으로 파란색, 오렌지색, 초록색, 빨간색 순으로 색을 사용합니다. 10개의 색상을 모두 쓰면 다시 파란색부터 사용합니다. 위 그래프에서 야옹이즈 우승 확률을 점차 증가시켜가며 10개의 색상을 쓰고, 마지막 11번째 색상으로 다시 파란색을 씁니다. 표준 편차가 가장 높은 점들이 파란색으로 표시되어 있고, 이는 야옹이즈 우승 확률 50%에 해당됩니다. 이 그래프를 보면 야옹이즈 우승 확률이 50%를 정점으로 0% 또는 100% 방향으로 변하면, 포트폴리오의 불확실성(표준 편차)이 높아지는 것을 알 수 있습니다. 따라서 야옹이즈 우승 확률 30%는 우승 확률 50%보다 불확실성이 낮다고 할 수 있습니다. 이 그래프를 보면 재미난 점을 발견할 수 있습니다. 야옹이즈 우승의 불확실성이 모든 포트폴리오에 동일한 강도로 영향을 미치지 않습니다. 제일은행 예금 비중이 50%인 포트폴리오는 야옹이즈 우승의 불확실성에 영향을 받지 않습니다. 제일은행 예금 비중이 60%인 포트폴리오는 제일은행 예금 비중이 55%인 포트폴리오보다 야옹이즈 우승의 불확실성에 더 큰 영향을 받습니다. 정리하며 불확실하다는 것은 무엇인지 생각해 보았습니다. 불확실성은 어떤 변수를 고정된 수치 하나로 나타낼 수 없음을 의미합니다. 따라서 불확실성이 있는 변수는 확률 분포로 표현해야 합니다. 이런 관점에서 확실하다는 것은 해당 변수가 특정 수치일 확률이 100%인 특수한 경우입니다. 불확실성은 정도가 있습니다. 불확실성의 정도를 수치로 환산하는 방법은 여러 가지가 있습니다. ∑p(x)logp(x)로 정의하는 섀넌의 정보 엔트로피가 대표적인 방법의 하나입니다. 투자에서 주로 사용하는 불확실성 척도의 하나는 표준 편차입니다. 각 값이 발생할 확률만 고려하는 섀넌의 정보 엔트로피와는 달리 표준 편차는 값의 크기도 고려합니다. 수익률 분포 [-2%, 2%]보다 [-10%, 10%]가 더 큰 불확실성을 가진다고 보는 것입니다. 투자 문제에서 독립 변수의 불확실성이 커지면 포트폴리오의 불확실성도 함께 증가하는 경향이 있습니다. 하지만 독립 변수의 불확실성이 포트폴리오에 미치는 영향의 정도는 포트폴리오 구성에 따라 달라질 수 있습니다. 참고: 항상 참인지는 잘 모르겠습니다. 그렇다면 모른다는 것은 무엇을 말하는 것일까요? 야옹이즈 우승이 [우승 × 50%, 준우승 × 50%]이라면 모른다와 같은 뜻일까요? 참고 도서: - 왜 위험한 주식에 투자하라는 걸까 - 장기 투자와 분산 투자에 대한 통계학적 시각 - 파이썬으로 그려보는 투자 포트폴리오 분석 - 정량적 투자 분석을 위한 입문서 이어지는 글: [중급 27] 모른다는 것은 무엇일까? (한식방씨는 식빵을 몇 개나 만들어야 할까?) 투자에서 정보에 대한 통계학적 시각 2 목차: [연재글 목차] 투자 성과 분석 (기초편, 초급편, 중급편): 순서대로 차근차근 읽으면 좀 더 이해가 쉽습니다. 출처: [중급 26] 불확실하다는 것은 무슨 뜻일까? (포트폴리오의 변동성) 투자에서 정보에 대한 통계학적 시각 1 [오렌지사과의 사진과 투자:티스토리]
|