독일 은행의 보고서 학습 메모는 양적 전략에서 자주 발생하는 몇 가지 오류를 나열합니다.

저자:작은 꿈, 2017-02-04 12:34:26, 업데이트:

독일 은행의 보고서 학습 메모는 양적 전략에서 자주 발생하는 몇 가지 오류를 나열합니다.


  • 1 생존자 편견

    생존자 편차는 투자자들이 직면하는 가장 일반적인 문제 중 하나이며, 많은 사람들이 생존자 편차의 존재를 알고 있지만 그 영향에 대해 중요하게 생각하는 사람은 거의 없습니다. 우리는 재평가를 할 때 현재 존재하는 회사만을 사용하는 경향이 있습니다. 즉, 파산, 재구성 및 상장으로 인해 상장하는 회사의 영향을 제거합니다.

    역사적인 데이터에 대한 조정으로 불공정, 불시장, 불기능한 주식들은 정기적으로 삭제됩니다. 그리고 이러한 삭제된 주식은 당신의 전략의 주식 풀에 나타나지 않습니다. 즉, 과거에 대한 재검토를 할 때 현재 구성 주식들에 대한 정보만을 활용하고, 미래의 성과 또는 가격의 불기능으로 구성 주식들에 대한 영향을 제거합니다. 아래 그림은 MSCI 유럽 지수 구성 주식 등의 무게를 투자 포트폴리오의 과거 성과로 나타냅니다. 파란색선은 올바른 포트폴리오이며, 빨간선은 생존자 편차가 있는 포트폴리오입니다. 빨간선은 투자의 수익률이 파란색선보다 훨씬 높다는 것을 발견할 수 있습니다. 따라서 재검토를 할 때 높은 수익률을 평가하는 투자 그룹에 대해 설명합니다. 더욱 충격적인 것은, 요인 분석을 할 때 완전히 반대되는 결과를 가져올 수 있다는 것입니다.

    img그림 1

    생존자 편차는 투자자들이 직면하는 가장 일반적인 문제 중 하나이며, 많은 사람들이 생존자 편차의 존재를 알고 있지만 그 영향에 대해 중요하게 생각하는 사람은 거의 없습니다. 우리는 재평가를 할 때 현재 존재하는 회사만을 사용하는 경향이 있습니다. 즉, 파산, 재구성 및 상장으로 인해 상장하는 회사의 영향을 제거합니다.

    역사적인 데이터에 대한 조정으로 불공정, 불시장, 불기능한 주식들은 정기적으로 삭제됩니다. 그리고 이러한 삭제된 주식은 당신의 전략의 주식 풀에 나타나지 않습니다. 즉, 과거에 대한 재검토를 할 때 현재 구성 주식들에 대한 정보만을 활용하고, 미래의 성과 또는 가격의 불기능으로 구성 주식들에 대한 영향을 제거합니다. 아래 그림은 MSCI 유럽 지수 구성 주식 등의 무게를 투자 포트폴리오의 과거 성과로 나타냅니다. 파란색선은 올바른 포트폴리오이며, 빨간선은 생존자 편차가 있는 포트폴리오입니다. 빨간선은 투자의 수익률이 파란색선보다 훨씬 높다는 것을 발견할 수 있습니다. 따라서 재검토를 할 때 높은 수익률을 평가하는 투자 그룹에 대해 설명합니다. 더욱 충격적인 것은, 요인 분석을 할 때 완전히 반대되는 결과를 가져올 수 있다는 것입니다.

    img그림 2

    즉, 지난 30년 동안 최고의 성과를 거둔 기업들을 재검토할 때, 어떤 기업들은 그 당시 신용 위험이 높았지만, 누가 살아남을지 알면 신용 위험이 높거나 곤경에 처했을 때 수익이 매우 높습니다. 만약 파산, 불출장, 저조한 성과를 거둔 주식을 고려한다면, 반대로 결론이 나옵니다. 신용 위험이 높은 기업에 투자하는 것은 장기적으로 신용력이 강한 기업보다 훨씬 낮은 수익률을 가져옵니다.

    그리고 많은 요소들이 생존자의 편견을 고려할 때 완전히 반대되는 결과를 낳습니다.

    img그림 3

  • 두 번째, 앞을 보는 편견 (look-ahead bias)

    img그림 4

    의 7가지 죄중 중 하나인 생존자 편차는 어떤 기업이 생존할 수 있고 오늘날에도 지수 구성 요소로 남아있는지 예측할 수 없다는 것입니다. 생존자 편차는 단지 미래지향적 편차의 특례일 뿐입니다. 미래지향적 편차는 재검토에서 사용되지 않거나 공개되지 않은 데이터를 사용하여 재검토하는 것을 의미합니다. 이것은 또한 재검토에서 가장 흔한 오류입니다.

    미래지향 편차의 대표적인 예는 재무 데이터에서 나타난 것으로, 재무 데이터의 수정에는 발견하기 어려운 오류가 발생하기 쉽다. 일반적으로 각 회사의 재무 데이터가 공개되는 시기는 다르며, 종종 지연이 있습니다. 재검토에서는 각 회사의 데이터 공개되는 시점에 따라 회사의 재무 상태를 평가하는 경우가 많습니다.

    그러나 당시 포인트 데이터 (Point-in-time data, PIT data) 가 제공되지 않을 때, 재무 보고서의 지연 가설은 종종 잘못된 것이다. 아래 그림은 PIT 데이터와 비PIT 데이터의 차이점을 증명한다. 동시에, 우리는 역사적인 거시 데이터를 다운로드 할 때 종종 얻을 수 있는 수정된 최종 값, 그러나 많은 선진국 GDP 데이터가 발표된 후 두 번 조정된 후, 대기업의 이익에 대한 수정도 종종 수정된다.

    img그림 5

  • 세번째, 이야기의 죄

    img그림 6

    어떤 사람들은 아무런 데이터도 없이 이야기를 시작하기를 좋아하고, 양자화하는 사람들은 데이터와 결과로 이야기를 나누기를 좋아합니다. 이 두 경우에는 많은 유사성이 있습니다. 스토리텔링을 잘하는 사람이나 데이터 결과를 해석하는 사람이 종종 데이터를 얻기 전에 이미 내면에 설정된 스크립트가 존재합니다.

    1997~2000년과 2000~2002년 두 차례에 걸쳐 미국 과학기술 부품 주식과 러셀 3000 지수를 살펴보면, 우리는 완전히 반대의 결론을 발견한다. 1997~2000년 미국 과학기술 부품 주식에서 볼 때, 수익률은 좋은 요소이며, 재검사 결과는 매우 믿을 수 있다. 그러나 2002년까지 긴 시간을 연장하면, 우리는 수익률 지표가 더 이상 좋은 요소가 아니라는 것을 발견한다.

    img그림 7

    그러나 러셀 3000 지표의 시장 성과에서 우리는 반대로 결론을 내리고, 수익률 지표는 여전히 유효한 요소이며, 볼 수 있듯이 주식 풀의 선택과 재평가 시간이 짧아서 요소의 유효성 판단에 큰 영향을 미칩니다. 그래서 이야기꾼은 올바른 결론을 얻을 수 없습니다.

    img그림 8

    시장에서 매일 새로운 유행이 발견되고, 영구적인 동력을 찾고 있다. 발표할 수 있는 전략들은 모두 좋은 결과를 보여준다. 스토리텔러가 역사에 대한 해석을 매우 감동적이지만, 미래에 대한 예측은 거의 쓸모가 없다. 금융 경제에서 연관성과 인과관계는 종종 명확하게 이해하기가 어렵습니다. 따라서 우리가 상식과 상반되는 결과를 만들 때, 또는 원래 판단에 일치하는 결과를 만들 때 스토리텔러가 되지 않는 것이 좋습니다.

  • 네, 데이터 마이닝과 데이터 스누핑

    img그림 9

    데이터 마이닝은 현재 주목받는 분야라고 할 수 있으며, 엄청난 양의 데이터와 컴퓨터의 연산에 기반하여, 사람들은 종종 눈에 잘 띄지 않는 우수 인자를 얻을 수 있기를 희망합니다. 그러나 원래의 금융 데이터는 아직 엄청난 양이 아니며 거래 데이터는 낮은 소음 우수 데이터의 전제를 충족시키지 못합니다.

    때때로 데이터 채굴은 거의 효과적이지 않습니다. 예를 들어, 우리는 S&P 500를 두 가지 다른 인자 가중화 알고리즘으로 모델링하여 2009-2014 년의 데이터를 선택하여 재검토합니다. 결과는 2009-2014 년의 데이터를 필터링하여 가장 좋은 성능을 보이는 6 가지 인자를 사용하여 재검토하는 데 매우 완벽한 결과를 보여줍니다.

    img그림 10

    따라서 전략을 구성하거나 우수한 인자를 찾는 데 있어서 우리는 모두 명확한 논리와 동기를 가져야 하며, 양적 분석은 논리나 동기를 검증하는 도구일 뿐이고, 논리의 단축점을 찾는 것이 아니다. 일반적으로 우리가 전략을 구성하거나 인자를 찾는 동기를 얻는 것은 금융의 기초 이론 지식, 시장의 효과, 행동 금융학 등의 영역에서 유래한다. 물론, 우리는 또한 데이터 마이닝의 양적 분야에서의 응용 가치를 부정하지 않는다.

  • 5. 신호 붕괴, 변수율, 거래 비용

    img그림 11

    신호 쇠퇴는 하나의 요인이 발생한 후 미래에 얼마나 많은 시간 동안의 주식 수익을 예측할 수 있는 능력을 의미한다. 일반적으로, 높은 거래율과 신호 쇠퇴는 관련이 있다. 다른 주식 선택 요인은 종종 다른 정보 쇠퇴 특성을 가지고 있다. 더 빠른 신호 쇠퇴는 종종 수익을 얻기 위해 더 높은 거래율을 필요로 한다. 그러나, 더 높은 거래율은 더 높은 거래 비용을 의미하기도 한다. 포트폴리오 구축에 거래율 제약을 추가하는 것은 비교적 쉬운 방법이지만, 거래율 제한이 때로는 수익을 차단하는 데 도움이 되기도 하고, 때로는 기존의 포트폴리오 성능을 손상시킬 수도 있기 때문에, 신호 쇠퇴, 거래 비용 및 모델 예측 능력을 평가하는 것이 포트폴리오 구축의 핵심이다.

    그렇다면, 최적의 조정 빈도를 어떻게 결정해야 할까요? 우리가 주의해야 할 것은, 튼튼한 환율 제약이 조정 빈도를 줄이는 것을 의미하지 않는다는 것입니다. 예를 들어, 우리는 종종 비슷한 말을 듣습니다. 우리는 장기 가치 투자자이며, 우리는 주식을 3-5 년 동안 보유하기를 기대합니다. 따라서, 우리는 일 년에 한 번 조정할 수 있습니다. 그러나, 정보는 종종 빨리 온다. 우리는 당시에 모델과 예측을 조정해야 합니다. 심지어 우리의 환율 제약이 단단하더라도, 우리는 여전히 적절한 시간에 조정 빈도를 가속화해야 합니다. 아래 그림은 매우 빠르게 감소하는 극단 요인의 사례로 설명됩니다.

    img그림 12

    매일매일 종결시 당일 최악의 실적을 낸 100개의 주식을 구매하고, 과거 보유를 팔고, 매일매일 거래를 계속하며, 수익률이 매우 높습니다. 여기서의 오류는 또한 미래 지향적 오차입니다. 아직 종결이 되지 않은 우리는 당일 최악의 실적을 낸 주식을 알지 못합니다. 즉, 절차적 거래를 사용하는 전략도 불가능합니다. 우리는 매일매일 열기 가격으로 어제 최악의 실적을 낸 100개의 주식을 구입할 수 있습니다. 대조적으로 열기 가격으로 구매하는 전략은 거의 직선입니다.

  • 6. 이상값 (Outliers)

    img그림 13

    기존의 특이점 제어 기술은 주로 윈소리제와 트런커이션을 포함한다. 데이터의 표준화는 또한 특이점 제어 방법 중 하나로 볼 수 있으며, 표준화 기술은 모델의 성능에 중대한 영향을 미칠 수 있다. 예를 들어, 아래 그림의 S&P BMI 한국 지수 구성 요소 주식 수익률은 평균, 제거 1% 또는 2% 극지수 등의 방법을 사용하여 큰 차이가 있다. 이러한 문제는 거시 데이터에서 자주 발생하며, 극지수가 미리 처리되지 않으면 심각한 회귀 결과를 영향을 줄 수 있다.

    img그림 14

    이상값은 유용한 정보를 포함할 수 있지만, 대부분의 경우 유용한 정보를 포함하지 않습니다. 물론, 가격동력 요인에 대해서는 예외입니다. 아래 그림에서 볼 수 있듯이, 파란색 선은 이상값을 제거한 후의 조합 표현이고, 빨간 선은 원자입니다. 우리는 원자 데이터의 동력 전략이 이상값을 제거한 후의 전략 표현보다 훨씬 낫다는 것을 볼 수 있습니다. 즉, 이상값은 많은 정보를 포함하고 있으며, 우리가 표준화할 때 이상값을 제거하면 많은 정보를 잃는 것과 같습니다. 따라서, 가장 좋은 방법은 미시적인 수준에서 데이터를 종합하고 전체 지표를 계산하는 것입니다.

    img그림 15

  • 7. 비대칭성 (The asymmetric payoff pattern and shorting)

    img그림 16

    일반적으로 다중 요인 전략을 수행할 때 더 많이 사용되는 전략은 다중 유공 전략이다. 즉, 많은 좋은 주식을 동시에 공허하게 하는 주식이다. 불행히도, 모든 요인이 동등한 것은 아니며, 대부분의 요인의 다중 유공 수익 특성이 비대칭되어 있으며, 공허하게 될 수 있는 비용과 현실적 실현 가능성에 더하여 양적 투자에도 큰 문제점을 야기한다. 아래 그림은 요인의 다중 유공 수익 특성을 보여 주며, 차이의 크기와 크기로 배열된다. 더 의존하는 요인과 공허하게 하는 높은 수요 비용으로 인해, 더 많은 알파를 얻는 것이 더 어렵다. 동시에, 우리는 가치 요인이 종종 다중 유공을 수행하는 데서 더 많은 수익을 얻는 것을 볼 수 있으며, 가격 가중화 요인과 질 요소가 더 의존하는 공허한 유공을 얻는 것으로 나타난다. 분석자는 더 많은 공허한 특성을 갖는 경향이 있다.

    img그림 17

이 사진은 월스트리트에서 찍은 사진입니다.


더 많은