ドイツ銀行は,数値化戦略におけるいくつかの一般的な間違いをリストする学習メモを報告しています.

作者: リン・ハーン小さな夢作成日: 2017-02-04 12:34:26, 更新日:

ドイツ銀行は,数値化戦略におけるいくつかの一般的な間違いをリストする学習メモを報告しています.


  • 生き残りのバイアス

    投資家が直面する最も一般的な問題の一つである生存者偏差は,多くの人が知っているが,その影響を重視する人はほとんどいない.我々は,現在存在する企業のみをリバースする傾向があり,これは破産や再編によって市面から脱出した企業の影響を排除することを意味します.

    歴史データへの調整では,破産,退市,不良業績の株は定期的に削除される.そして,これらの削除された株は,あなたの戦略のプールには現れません.つまり,過去へのリサーチでは,現在の構成株の情報を利用し,将来の業績や価格の不良の結果のために構成株から削除された株の影響を削除します.以下の図は,MSCI欧州指数構成株などの重さを,投資ポートフォリオの過去のパフォーマンスとして示しています.青い線は正しいポートフォリオであり,赤い線は生存者の偏差があるポートフォリオです.赤い線の投資収益率は青い線よりも著しく高いことが判明し,その結果,リサーチでは高額評価された投資グループを報じます.さらに衝撃的なことに,因子分析すると,それはまったく逆の結果をもたらす可能性があります.

    img図1

    投資家が直面する最も一般的な問題の一つである生存者偏差は,多くの人が知っているが,その影響を重視する人はほとんどいない.我々は,現在存在する企業のみをリバースする傾向があり,これは破産や再編によって市面から脱出した企業の影響を排除することを意味します.

    歴史データへの調整では,破産,退市,不良業績の株は定期的に削除される.そして,これらの削除された株は,あなたの戦略のプールには現れません.つまり,過去へのリサーチでは,現在の構成株の情報を利用し,将来の業績や価格の不良の結果のために構成株から削除された株の影響を削除します.以下の図は,MSCI欧州指数構成株などの重さを,投資ポートフォリオの過去のパフォーマンスとして示しています.青い線は正しいポートフォリオであり,赤い線は生存者の偏差があるポートフォリオです.赤い線の投資収益率は青い線よりも著しく高いことが判明し,その結果,リサーチでは高額評価された投資グループを報じます.さらに衝撃的なことに,因子分析すると,それはまったく逆の結果をもたらす可能性があります.

    img図2

    つまり,過去30年間で最も優秀な業績を上げた企業を振り返ってみると,ある企業は信用リスクが高くても,誰が生き残るかを知っていれば,信用リスクが高く,あるいは困ったときに購入して,利益は非常に高いのです.破産,脱市,不良の株式を考慮すると,逆の結論になります. 高信用リスクの企業への投資は,長期的に見れば,信用力のある企業よりもはるかに低い利益を得ます.

    生き残りの偏差を考慮すると,まったく逆の結果が得られる要因もたくさんあります.

    img図3

  • 2 視野偏差 (look-ahead bias) について

    img図4

    の七つの罪の一つとして,生存者偏差は,どの企業が過去の時点において生き残り,今日もインデックス構成要素であるかを予測できないという点であり,生存者偏差は前向きの偏差の一例に過ぎない.前向きの偏差は,回計の際に,回計が当時利用できない,または公開されていないデータを使用することを指し,これは回計の最も一般的な誤りでもある.

    前向きの偏差の明らかな例は,財務データで表される.財務データの修正は,検出が難しい誤りを引き起こすことが容易である. 一般的に,各社の財務データが発行される時期は異なっており,遅延があることが多い. 復習では,各社のデータの公開時期に基づいて会社の財務状況を評価することが多い.

    しかし,その時点でポイントデータ (PIT data) が入手できない場合,財務報告の遅延仮説はしばしば誤りである.以下の図は,PITデータと非PITデータの使用がもたらす違いを証明するものである.同時に,歴史マクロデータをダウンロードするときにしばしば得られる修正された最終値が,多くの先進国のGDPデータがリリースされた後2回調整され,各大企業の利益報告の修正もしばしば修正される.

    img図5

  • ストーリーテリングの罪

    img図6

    データがないと物語を語るのが好きで,データと結果を持って物語を語るのが好きな人はいます. 両方には多くの類似点があります. ストーリーテラーが上手で,データ結果を解釈する人が上手で,データを得る前に,心の中に既定の脚本が存在し,データ裏付けを見つけるだけでよいのです.

    1997-2000年と2000-2002年のアメリカ・テクノロジー・コンポーネント・株式とラッセル3000指数を見直すと,まったく反対の結論が得られます. 1997-2000年のアメリカ・テクノロジー・コンポーネント・株式から見ると,利回りは良い要因であり,反測結果は非常に信頼性がありますが,長期間間隔を2002年まで引き延ばせば,利回りはもはや良い要因ではないことがわかります.

    img図7

    しかし,ラッセル3000指数の市場パフォーマンスから,利潤率指標は依然として有効な要因であり,見られるように,株式池の選択と再評価の時間が短く,要因の有効性判断に大きな影響を与えます.

    img図8

    市場では毎日新しい好因子を見つけ,永続的なエンジンを探している. 策略が発表されることは,反復的に良好なパフォーマンスである. ストーリーテラーが歴史の解釈を非常に魅力的にしますが,将来の予測はほとんど役に立たない. 金融経済における関連性や因果性はよく理解しづらいので,私たちが常識に反する結果や,元の判断に一致する結果を出しているときに,ストーリーテラーをしないほうが良い.

  • 4.データマイニングとデータスヌーピング

    img図9

    データマイニングは,膨大なデータとコンピュータの計算力によって支えられている,現在注目されている分野であり,人々はしばしば,知覚しづらいメリット・デメリット・ファクタルのを得ることを望んでいます.しかし,元の金融データは,まだ膨大な量に達していないし,取引データは,低ノイズメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリット・デメリットです.

    時にはデータマイニングはほとんど効果的ではない.例えば,S&P500を2つの異なる因数加重アルゴリズムでモデル化し,2009年から2014年のデータを選んで再測定した.結果として,2009年から2014年のデータから6つの最も優れた因子をフィルタリングし,等重量アルゴリズムを使用して再測定した結果は非常に完璧であり,歴史的なデータサンプルを使用して再測定した結果は直線である.

    img図10

    したがって,戦略を構築する時,または良い因子を探す時,我々は皆,明確な論理と動機を持つべきであり,量化分析は,論理のショートカットを探すのではなく,自分の論理や動機を検証するツールである. 一般的に,戦略を構築する時,または因子を探す動機は,金融学の基礎理論知識,市場の有効性,行動金融学の分野などから生まれます. もちろん,我々は,量化分野におけるデータマイニングの応用価値を否定していません.

  • 5. 信号衰退,交代率,取引コスト

    img図11

    信号衰退とは,ある因子が生じた後,今後どのくらいの期間で株の収益を予測する能力を持つことを指す.一般的に,高引換率と信号衰退は関係している.異なる株の選択因子はしばしば異なる情報衰退特性を有する.より速い信号衰退は,利益を得るためにより高い引換率を必要とする.しかし,より高い引換率は,より高い取引コストを意味する.配合構築に引換率制限を追加することは比較的簡単な方法ですが,配合構造の鍵となるのは,引換率制限が時に利得を固定するのに役立ちますが,時には既定の配合パフォーマンスを損なうため,理想的な方法ではありません.

    では,最適な調整頻率をどのように決定するか?注意すべきことは,緊縮された配当率の制約は,調整頻度を下げることを意味しないということです.例えば,私たちはよく似たことを耳にします.私たちは長期価値投資者です.私たちは3〜5年の株を保有することを期待しています.したがって,私たちは年に一度調整を即座にします.しかし,情報はしばしば速くなります.

    img図12

    日々の閉店時に当日の最悪パフォーマンスの100株を購入し,過去保有を売却し,継続的な日々の取引で,収益率は非常に高い. ここでの誤りは,前向きな偏差でもある. 閉店前に当日の最悪パフォーマンスのどの株を知っていないこと,すなわち,程序化された取引を使用することは,この戦略も不可能である. 私たちは,毎日の開店価格で昨日の最悪パフォーマンスの100株しか購入できない. 対照的に,開店価格で購入する戦略はほぼ直線である.

  • 6 異常値 (Outliers)

    img図13

    従来の異常値制御技術には主にwinorizationとtruncationが含まれる.データの標準化は,異常値制御の方法の一つとして見なされ,標準化技術はモデルのパフォーマンスに重大な影響を与える可能性がある.例えば,下図のS&PBMI韓国の指数成分株の利回り率は,平均値,除算1%,2%極値などの方法による結果の差が大きい.マクロデータではこのような問題が頻繁に発生し,極値の数が予備処理されなければ,重回帰結果に影響を与える.

    img図14

    異常値には有用な情報が含まれている可能性があるが,ほとんどの場合,有用な情報は含まれていない. もちろん,価格動力因子には例外がある. 下の図のように,青い線は異常値を除去した組み合わせ表現で,赤い線は原始データである. 原始データの動力戦略は異常値を除去した戦略表現よりもはるかに優れていることがわかります. つまり,異常値には多くの情報が含まれています.

    img図15

  • 7. 非対称性 (The asymmetric payoff pattern and shorting)

    img図16

    一般的に多因子戦略をする際の最も一般的な策略は多空間の戦略である.つまり,多くの良い株を同時に空白にする株である.残念ながら,すべての要素は等しくありません.多くの要素の多空間の収益特性が不均衡であり,空白の可能性のコストと現実的実行可能性に加えて,定量化投資にも大きな困惑をもたらします.下図は,因子の多空間の収益特性を示し,差異の大きさに順序付けしています.より依存する因子と空白の需要の高まるコストにより,余剰アルファを得るのが難しくなります.同時に,価値因子はしばしば多端で収益を得ることが多く,価格の重量因子と質の因子により多くの依存性のある空白因子から利益を得ることが多く見られます.分析者は,空白の特性を得ることに傾向があることを修正します.

    img図17

ウォールストリートのウォーキング


もっと