생존자 편차는 투자자들이 직면하는 가장 일반적인 문제 중 하나이며, 많은 사람들이 생존자 편차의 존재에 대해 알고 있지만, 그 영향을 중요시하는 사람은 거의 없습니다. 우리는 재평가를 할 때 현존하는 기업만을 사용하는 경향이 있습니다. 이것은 우리가 파산, 재구성 및 상장 퇴출으로 인해 발생하는 기업의 영향을 배제한다는 것을 의미합니다.
역사적인 자료를 조정할 때, 일부 파산, 상장, 부진한 주식은 정기적으로 삭제됩니다. 이러한 삭제된 주식은 전략의 주식 풀에 나타나지 않습니다. 즉, 과거를 재검토 할 때 현재 구성 주식의 정보만 사용하며, 미래의 성과 또는 주식 가격의 부진으로 인해 구성 주식에서 제외 된 주식의 영향을 배제합니다. 아래의 그림은 MSCI 유럽 지수 구성 요소 주식 등의 중량 주식의 과거 성과를 보여줍니다. 파란색은 올바른 투자 포트폴리오이며, 빨간색은 생존자의 편향이있는 포트폴리오입니다. 빨간색의 투자 수익률은 파란색보다 분명히 높습니다. 따라서 재검토 할 때 포트폴리오의 수익률을 높게 평가합니다. 더 놀라운 것은, 지진 분석을 할 때 완전히 반대 결과를 가져올 수 있다는 것입니다.
그림 1
생존자 편차는 투자자들이 직면하는 가장 일반적인 문제 중 하나이며, 많은 사람들이 생존자 편차의 존재에 대해 알고 있지만, 그 영향을 중요시하는 사람은 거의 없습니다. 우리는 재평가를 할 때 현존하는 기업만을 사용하는 경향이 있습니다. 이것은 우리가 파산, 재구성 및 상장 퇴출으로 인해 발생하는 기업의 영향을 배제한다는 것을 의미합니다.
역사적인 자료를 조정할 때, 일부 파산, 상장, 부진한 주식은 정기적으로 삭제됩니다. 이러한 삭제된 주식은 전략의 주식 풀에 나타나지 않습니다. 즉, 과거를 재검토 할 때 현재 구성 주식의 정보만 사용하며, 미래의 성과 또는 주식 가격의 부진으로 인해 구성 주식에서 제외 된 주식의 영향을 배제합니다. 아래의 그림은 MSCI 유럽 지수 구성 요소 주식 등의 중량 주식의 과거 성과를 보여줍니다. 파란색은 올바른 투자 포트폴리오이며, 빨간색은 생존자의 편향이있는 포트폴리오입니다. 빨간색의 투자 수익률은 파란색보다 분명히 높습니다. 따라서 재검토 할 때 포트폴리오의 수익률을 높게 평가합니다. 더 놀라운 것은, 지진 분석을 할 때 완전히 반대 결과를 가져올 수 있다는 것입니다.
도 2
지난 30년 동안 가장 잘한 회사들을 이용해서 재검토할 때, 어떤 회사들이 그 당시 신용 위험도가 높았을지라도, 누가 살아남을지 알면, 신용 위험도가 높거나 곤경에 처했을 때 구매하면, 수익률이 매우 높습니다. 파산, 상장 퇴출, 부진한 성과를 낸 주식을 고려하면, 완전히 반대되는 결론을 얻을 수 있습니다. 신용 위험도가 높은 기업에 투자하는 것은 장기적으로 신용이 좋은 기업보다 훨씬 낮은 수익률입니다.
생존자 편향을 고려할 때, 다른 많은 요소들이 정반대의 결과를 가져오기도 합니다.
도 3
도 4
생존자 편차는 7가지 죄목 중 하나로서, 우리가 과거의 시점에 서서 어떤 회사가 살아남아 오늘날 지수의 구성 요소가 될 수 있을지를 예측할 수 없다는 것이다. 생존자 편차는 단지 전망을 보는 편차의 한 예일 뿐이다. 전망을 보는 편차는 재검토할 때, 당시 사용되지 않거나 공개되지 않은 데이터를 사용한다는 것을 의미하며, 이는 재검토에서 가장 흔한 오류이다.
미래 지향적 편견의 명백한 예는 재무 데이터에 나타납니다. 재무 데이터에 대한 수정은 쉽게 발견 할 수없는 오류를 초래합니다. 일반적으로, 각 회사의 재무 데이터가 발표 된 시점은 다릅니다. 종종 지연이 있습니다.
그러나, 당시 포인트 데이터 (Point-in-time data, 약 PIT data) 가 사용할 수 없을 때, 재무 보고서의 지연 가정은 종종 잘못된 것이다. 아래의 그림은 PIT 데이터와 비-PIT 데이터를 사용함으로써 발생하는 차이를 증명한다. 또한, 우리는 역사적인 거시 데이터를 다운로드 할 때 종종 수정된 최종값을 얻는다. 그러나 많은 선진국의 GDP 데이터가 발표 된 후 두 번 조정되어야하며, 대기업의 재무 보고서의 수정도 종종 수정된다. 우리가 재검토하는 시점에 최종값은 알려지지 않고 초기값 분석 만 사용할 수 있다.
도 5
그림 6
어떤 사람들은 어떤 데이터도 없이 이야기를 하는 것을 좋아하고, 수량화하는 사람들은 데이터와 결과를 가지고 이야기를 하는 것을 좋아한다. 두 가지 상황에는 많은 유사점이 있다. 이야기를 잘 하는 사람 혹은 데이터 결과를 잘 해석하는 사람은 종종 데이터를 얻기 전에 이미 내면에 이미 정해진 스크립트가 존재하고, 데이터의 뒷받침만 찾아야 한다.
1997-2000년과 2000-2002년 미국 과학기술 부품 주식과 러셀 3000 지수를 살펴보면, 우리는 정반대의 결론을 발견할 것이다. 1997-2000년 미국 과학기술 부품 주식에서 보면, 이윤률은 좋은 요소이며, 재검토 결과는 매우 신뢰할 수 있다. 그러나 2002년까지의 긴 시간대를 뻗으면, 우리는 이윤률 지표가 더 이상 좋은 요소가 아니라는 것을 발견할 것이다.
도 7
하지만 러셀 3000 지수의 시장 성과를 보면, 우리는 그 반대 결론을 얻습니다. 이윤율 지수는 여전히 유효한 요소입니다. 주식 풀의 선택과 재검토의 길이는 요소의 유효성에 대한 판단에 큰 영향을 미친다는 것을 알 수 있습니다.
도 8
시장에서는 매일 새로운 좋은 요인을 발견하고, 영구적인 동기를 찾습니다. 발표할 수 있는 전략들은 모두 좋은 성과를 거두고 있습니다. 이야기꾼이 역사에 대해 설명하는 것은 매우 감동적이지만, 미래에 대한 예측은 거의 쓸모가 없습니다. 금융 경제의 연관성과 인과성은 종종 이해하기 어렵습니다. 그래서 우리가 상식과 상반되는 결과를 만들거나 원래 판단과 일치 할 때, 이야기꾼이 되지 않는 것이 좋습니다.
도 9
데이터 채굴은 현재 많은 관심을 받고 있는 분야라고 할 수 있는데, 엄청난 양의 데이터와 컴퓨터의 계산력에 기반하여, 사람들은 종종 감지하기 어려운 좋은 요소를 얻을 수 있기를 희망한다. 그러나 원래의 금융 데이터는 아직 엄청난 양의 데이터를 얻지 못하고 거래 데이터는 소음 을 낮추는 데이터 전제를 충족시키지 못한다.
때때로 데이터 채굴은 거의 효과적이지 않습니다. 예를 들어, 우리는 S&P 500 지수를 두 가지 다른 인수 가중 알고리즘으로 모델링하여 2009-2014 년 데이터를 선택하여 재검토했습니다. 결과는 2009-2014 년 데이터를 사용하여 가장 좋은 성능을 보이는 6 개의 인자를 선택하여 동등 무게 알고리즘을 사용하여 재검토한 결과는 매우 완벽하지만, 역사적 데이터를 사용하여 샘플 외 재검토의 결과는 직선입니다.
그림 10
따라서, 전략을 세울 때나 좋은 인자 을 찾을 때, 우리는 명확한 논리와 동기를 가져야 합니다. 양적 분석은 논리적인 단축로를 찾는 것이 아니라 자신의 논리 또는 동기를 검증하는 도구일 뿐입니다. 일반적으로, 전략을 세울 때나 인자를 찾는 동기는 금융학의 기초 이론 지식, 시장의 유효성, 행동 금융학 등의 분야에서 많이 나옵니다. 물론, 우리는 데이터 채굴의 응용 가치를 부정하지 않습니다.
도표 11
신호 쇠퇴는 한 요소가 생성된 후 얼마나 오랫동안 주식 수익을 예측할 수 있는 능력을 의미한다. 일반적으로, 높은 변수율과 신호 쇠퇴는 관련이 있다. 다른 주식 선택 요소는 종종 다른 정보 쇠퇴 특성을 가지고 있다. 신호 쇠퇴가 더 빨라질수록 수익을 얻기 위해 더 높은 변수율이 필요합니다. 그러나, 더 높은 변수율은 종종 더 높은 거래 비용을 의미합니다. 포트폴리오 구성에 변수율 제약을 추가하는 것은 비교적 간단한 방법이지만, 가장 이상적인 방법은 아니지만, 변수율 제약은 때때로 수익을 고정하는 데 도움이 될 수 있고, 때로는 포트폴리오의 성능을 손상시킬 수 있기 때문에, 신호 쇠퇴, 거래 비용 모델 및 예측 능력을 가중하는 것이 포트폴리오 구성의 핵심입니다.
그렇다면, 최적의 조정 주파수를 어떻게 결정해야 할까요? 우리가 주의해야 할 것은, 교환율 제약을 강화하는 것은 조정 주파수를 감소시키는 것을 의미하지 않는다는 것입니다. 예를 들어, 우리는 종종 비슷한 것을 듣습니다. 우리는 장기적인 가치 투자자이며, 우리는 주식을 3-5년 동안 보유할 것으로 예상합니다. 따라서, 우리는 1년에 한 번 조정할 수 있습니다. 그러나, 정보가 너무 빨리 움직이기 때문에, 우리는 우리의 모델과 기대를 적시에 조정해야 합니다.
그림 12
매일 매매가 끝날 때 그날의 최악의 100개의 주식을 사서, 과거의 지분을 팔고, 계속 매일매일 거래하고, 수익률이 매우 높습니다. 여기서의 오류는 또한 전향적 편향이며, 매매가 끝나기 전에 우리는 그날의 어떤 주식이 최악의 성과를 거두었는지 알지 못합니다. 즉, 절차적 거래를 사용하는 전략도 불가능합니다. 우리는 매일 매매 개시 가격으로 어제의 최악의 100개의 주식을 구입할 수 있습니다. 대조적으로, 개시 가격으로 매매하는 전략은 거의 직선입니다.
그림 13
전통적인 변칙값 제어 기술은 주로 winsorization와 truncation 두 종류로 이루어져 있으며, 데이터의 표준화는 또한 변칙값 제어의 방법 중 하나로 볼 수 있다. 표준화 기술은 모델의 성능에 상당한 영향을 미칠 수 있다. 예를 들어 아래 그림의 스탠포드BMI 한국 지수 구성 요소 주식의 수익률, 평균값, 1%, 2% 극한값을 제외한 방법의 결과는 매우 다르다. 매크로 데이터에서 종종 이러한 문제가 발생하며, 소수의 극한값은 사전 처리를하지 않으면 결과를 심각하게 좌우한다.
도 14
예외값은 유용한 정보를 포함할 수 있지만, 대부분의 경우, 유용한 정보를 포함하지 않습니다. 물론, 가격 동력 인자에 대해서는 예외입니다. 아래 그림에서 볼 수 있듯이, 파란 선은 예외값을 제거한 후의 조합 성능이며, 빨간 선은 원본 데이터입니다. 원본 데이터의 동력 전략은 예외값을 제거한 후의 전략보다 훨씬 더 나은 것을 볼 수 있습니다. 즉, 예외값은 많은 양의 정보를 포함하고 있습니다.
도표 15
도 16
일반적으로, 다중 인자 전략을 수행 할 때 더 일반적으로 사용되는 전략은 다중 공백 전략, 즉, 더 많은 좋은 주식을 동시에 공백이있는 주식이다. 불행히도, 모든 인자가 평등하지 않으며, 대부분의 인자의 다중 공백 수익 특성은 비대칭성이 있으며, 공백이 가능한 비용과 실제 가능성에 더하여 양적 투자에도 큰 어려움을 초래합니다. 아래 그림은 인자의 다중 공백 수익 특성을 보여줍니다. 차이 크기의 크기에 따라 배열됩니다.
도 17
월스트리트에서 산책하다