7つのリグネクション技術を身につけましょう

作者: リン・ハーン小さな夢作成日:2016年12月18日 10:22:43 更新日:2016年12月18日 11:08:56

7つのリグネクション技術を身につけましょう


本文では,回帰分析とその利点について説明し,最も一般的に用いられる7つの回帰技術 (線形回帰,論理回帰,多項回帰,段階回帰,回帰,索引回帰,ElasticNet回帰など) とその重要な要素を要約し,正しい回帰モデルを選ぶための重要な要素を紹介する. ありがとうございました. ありがとうございました. この記事では,回帰分析の含意と利点について説明し,最もよく使われる回帰技術7つ,すなわち線形回帰,論理回帰,多項回帰,段階回帰,回帰,索引回帰,ElasticNet回帰,およびそれらの重要な要素を要約し,正しい回帰モデルを選択するための重要な要素を紹介します.

  • 逆転分析とは何か?

    回帰分析は,因変数 (目標) と自己変数 (予測者) の関係を研究する予測モデリング技術である.この技術は,通常,予測分析,タイムシーケンスモデル,発見変数間の因果関係に使用される.例えば,ドライバーの無謀な運転と道路交通事故の数の関係,最も優れた研究方法は回帰である.

    回帰分析はデータモデリングと分析のための重要なツールです. ここで,曲線/線を使ってこれらのデータポイントをマッチします. この方法で,曲線または線からデータポイントまでの距離の差は最小です. 私は次のセクションで詳細に説明します.

    img

  • なぜ回帰分析を使うのか?

    上記のように,回帰分析は2つ以上の変数との関係を推定する.以下,それを理解するために簡単な例を挙げましょう:

    例えば,現在の経済状況下では,会社の売上高の成長率を推定します. 現在,会社の最新データがあるので,売上高の成長率は経済成長の2.5倍程度です. 逆転分析を使用して,現在の情報と過去の情報に基づいて将来の会社の売上を予測することができます.

    逆転分析の利点はいくつかあります.

    これは自変数と因変数との間に有意な関係を示しています.

    これは,複数の自己変数による変数による影響の強さを表します.

    回帰分析はまた,価格変動とプロモーション活動の数との関連など,異なる尺度の変数を測定する相互影響の比較を可能にします. これらは,市場研究者やデータ分析者,およびデータ科学者が予測モデルを構築するために最適な変数を排除し推定するのに役立ちます.

  • 逆転技術は何種類あるの?

    予測に用いられる回帰技術には様々な種類があります.これらの技術は主に3つのメタメタール (自変数の個体数,変数の種類,回帰線の形状) を有します.これらのメタメタールは,次のセクションで詳細に説明します.

    img

    創意のある人にとって,上記のパラメータの組み合わせを使用することが必要だと感じるなら,未使用の回帰モデルを作成することもできます. しかし,始められる前に,最もよく使われる回帰方法について以下のように説明します.

    • 1. 線形回帰 線形回帰

      これは最もよく知られたモデリング技術の一つである.線形回帰は,予測モデルを学ぶ際にしばしば好まれる技術の一つである.この技術では,変数が連続であるため,自変数は連続または離散である可能性があり,回帰線の性質は線形である.

      線形回帰は,因数 (Y) と自己変数 (X) の1つまたは複数の間,最適な適合直線 (すなわち回帰線) を用いて関係性を作る.

      これは,y=a+b*x+eという式で表される.ここでaは切片,bは直線の傾き,eは誤差項である.この式は,与えられた予測変数 (s) に基づいて目標変数の値を予測することができる.

      img

      単線回帰と多線回帰の違いは,多線回帰には (1) の自己変数があることであり,単線回帰には通常,1 つの自己変数があることです.

      適正な線 (aとbの値) をどうやって得るか?

      この問題は最小二乗で簡単に完了できる.最小二乗は回帰線を適合させる最も一般的な方法でもある.観測データでは,各データポイントから線への垂直偏差の平方和を最小化して最適な適合線を計算する.加算では偏差が平方に先行するので,正値と負値は抵消されない.

      img

      R-square指標を使用してモデル性能を評価することができます.これらの指標について詳細については,以下を参照してください:モデル性能指標 Part 1, Part 2.

      ポイント:

      • 自変数と因数との関係は線形でなければならない.
      • 多重回帰には多重共線性,自関係性,異性差がある.
      • 線形回帰は異常値に非常に敏感である.これは回帰線に深刻な影響を及ぼし,最終的に予測値に影響を与える.
      • 多重共線性により系数推定値の差が増加し,モデルのわずかな変化で推定値が非常に敏感になる.結果として系数推定値は不安定である.
      • 複数の自己変数の場合,最重要となる自己変数を選択するために,前向き選択,後向き排除,段階的なフィルタリングを使用できます.
    • 2. ロジスティック・レグレッション

      論理回帰は,事件=Success事件=Failureの確率を計算するために用いられる. 変数の型が二次 ((1/0,true/false,yes/no) 変数である場合,論理回帰を使用すべきである. ここで,Yの値は0から1まであり,次の式で表される.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      この式では,p の表現が特定の特性を有する確率である.あなたはこんな質問をすべきでしょう. なぜ公式で対数log を使うのか?

      ここで我々が使うのは二次分布 (因変数) であるため,この分布に最適な結合関数を選択する必要があります. それはロジット関数です. 上記の方程式では,観測サンプルの大幅な類似推定値によって参数を選択する代わりに,平方と誤差を最小化する (通常の回帰で使用されているように).

      img

      ポイント:

      • これは,分類の問題で広く使用されています.
      • ロジカル回帰は自変と因変が線形関係であることを要求しない.それは予測された相対リスク指数ORに対して非線形ログ変換を使用しているため,あらゆる種類の関係を処理することができる.
      • 過剰な適合と不適合を避けるために,すべての重要な変数を含めなければならない. これを確実にする良い方法は,論理回帰を推定するために段階的なフィルタリング方法を使用することです.
      • これは大きなサンプルの量が必要であり,少数のサンプルの場合,非常に似通りの推定効果は,通常の最小二乗よりも劣る.
      • 自変数は相互に関連していないはずである.しかし,分析とモデリングでは,分類変数の相互作用の影響を含む選択ができます.
      • 因数変数の値が順序変数である場合,これを順序論理回帰と呼ぶ.
      • 変数が複数類である場合,それは複数回帰である.
    • 3.ポリノミアル回帰多項式回帰

      回帰方程式については,自変数の指数が1より大きい場合,多項式回帰方程式である.

      y=a+b*x^2
      

      この回帰技術では,最適なフィットラインは直線ではなく,データポイントをフィットするために使用される曲線である.

      img

      ポイント:

      • 高級多項式に適合し,低誤差を得る誘因はあるが,これは過適合を引き起こす可能性がある.あなたは頻繁に相応性を見出すために関係図を描く必要があるし,相応性が合理的で過適合性も欠陥性も無いことを保証することに焦点を当てなければならない.以下は理解するのに役立つ例である.

      img

      • 明らかに両端に曲線点を探し,これらの形状と傾向が意味があるのか見てみましょう.より高い多項式は,奇妙な推論を最終的に生み出します.
    • 4. ステップワイス回帰

      複数の自変を処理するときに,この形式の回帰を使用することができる.この技術では,自変の選択は,非人間操作を含む自動プロセスで行われます.

      この偉業は,R-square,t-stats,AIC指標などの統計値を観察することによって重要な変数を識別する. ステップレグネーションは,指定基準に基づく共変数を同時に追加/削除してモデルに適合させる. 以下は,最も一般的に使用されるステップレグネーション方法のいくつかです:

      • 標準段階的な回帰法では,2つのことが行われます.すなわち,各ステップに必要な予測を追加し,削除します.
      • 前向き選択は,モデルの中で最も顕著な予測から始め,各ステップに変数を追加する.
      • バックスルー除算は,モデルとすべての予測を同時に開始し,最小の有意変数を各ステップで排除する.
      • このモデリング技術の目的は,最小限の予測変数を使用して予測能力を最大化することです. これは,高次元データセットを扱う方法の一つです.
    • 5.リッジ回帰回帰

      回帰分析は,複数の共線性 (自変値高度関連) のデータがある場合に使用される技術である. 多重共線性では,最小二乗 (OLS) が各変数に対して均等であるにもかかわらず,それらの差異が大きいため,観測値が偏り,真値から遠く離れている.回帰は,回帰推定値に偏差を1度増やすことで標準誤差を減らす.

      線形回帰方程式は,次の式で表されます.

      y=a+ b*x
      

      この方程式には誤差項もあります.

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      線形方程式では,予測誤差は2つの子分数に分割できる. ^1は偏差, ^2は差分である. ^2はこれらの分数,またはそのいずれかに起因する. ^3では,差分によって起因する関連誤差について議論する. ^4は,差分によって起因する関連誤差について議論する. ^5は,差分によって起因する関連誤差について議論する. ^6は,差分によって起因する関連誤差について議論する.

      回帰は,収縮参数λ ((lambda) を使って複数共線性問題を解く.以下の式を参照.

      img

      この式には2つの構成要素がある.最初のものは最小二乗項であり,もう1つはβ2 (β−平方) の倍数であるλで,βは関連系数である.縮小参数のために最小二乗項に追加して非常に低い方差を得る.

      ポイント:

      • 常数項を除いて,この回帰の仮定は最小二乗回帰と類似している.
      • 関連系数の値を縮小したが,ゼロには達していない.これは,特性の選択機能がないことを示している.
      • これはルールの方法であり,L2ルールの使用である.
    • 6. ラソ・リグレッション 索引回帰

      これは回帰に類似し,最小絶対縮小と選択オペレータ (Lasso) も回帰系数の絶対値の大きさを罰します. さらに,変化を減らすことができ,線形回帰モデルの精度を向上します.以下の式を参照してください:

      img

      ラソ回帰はリッジ回帰とは少し異なっており,その罰関数は平方ではなく絶対値である.これは罰 (または制限推定の絶対値の合計に等しい) の値がいくつかの参数推定結果をゼロに等しくする結果になる.罰値が大きいほど,さらに推定がゼロに近い値に縮小する結果になる.これは,与えられたnつの変数から変数を選択する結果になる.

      ポイント:

      • 常数項を除いて,この回帰の仮定は最小二乗回帰と類似している.
      • 収縮係数は0に近い (=0) で,特徴選択に役立ちます.
      • これはL1の正規化を使用する正規化方法です.
      • 予測された変数の一組が高度に関連している場合,ラソはその変数の"つを選び,他の変数をゼロに収縮します.
    • 7.ElasticNet回归

      ElasticNetは,Lassoとリッジ回帰技術の混合である.それはL1を訓練するために使用し,L2は規則化マトリックスとして優先される.複数の関連性があるとき,ElasticNetは便利である.Lassoはそれらのうちの1つをランダムに選択し,ElasticNetは2つを選択する.

      img

      LassoとRidgeの実用的な優点は,ElasticNetがリサイクル状態でRidgeのいくつかの安定性を継承することを可能にすることである.

      ポイント:

      • 高関連性のある変数の場合,それは集団効果を生み出します.
      • 選択可能な変数の数は制限されません.
      • 双重収縮に耐えられる.
      • この7つの最も一般的な回帰技術に加えて,Bayesian,Ecological,Robust回帰などの他のモデルも参照してください.
    • 逆転モデルを正しく選ぶにはどうすればいいのか?

      "技術"や"技術"を2つしか知らないと,人生は簡単になる.ある訓練機関が学生に,結果が連続であれば,線形回帰を使うと教えてくれた.二元であれば,論理回帰を使うと教えてくれた.しかし,私たちの処理では,選択肢が多くなるほど,正しいものを選ぶのが難しくなる.

      多種回帰モデルでは,自変と因変の種類,データの次元,およびデータの他の基本的な特性に基づいて,最も適切な技術を選択することが重要です.正しい回帰モデルを選択する際の重要な要素は以下の通りです:

      データ探求は予測モデルの構築の必然的な部分である.適切なモデルを選択する際,例えば変数の関係と影響を識別する際の第一歩であるべきである.

      異なるモデルに適した優位性としては,統計的意味のパラメータ,R-square,Adjusted R-square,AIC,BIC,および誤差項などの異なる指標パラメータを分析することができる.もう1つは,Mallows's Cube Cp指針である.これは主にモデルをすべての可能なサブモデルと比較して (またはそれらを慎重に選択して) あなたのモデルで発生する可能性のある偏差をチェックする.

      クロス検証は予測モデルを評価する最良の方法である.ここで,あなたのデータセットを2つの部分に分割します (訓練と検証の1つ).観察値と予測値の間の単純な均等差を使用してあなたの予測の精度を測定します.

      数値セットが複数の混合変数である場合は,すべての変数を同時に同じモデルに置くことを望まないため,自動モデル選択の方法を選択すべきではありません.

      また,あなたの目的にもかかることでしょう. 弱いモデルが高度な統計的意味を持つモデルよりも容易に行う場合もあります.

      回帰正規化方法 (Lasso,Ridge,ElasticNet) は,高次元とデータセット変数間の多重共線性においてうまく動作する.

CSDNから転送


もっと