सात वापसी तकनीकें जो आपको सीखनी चाहिए

लेखक:छोटे सपने, बनाया गयाः 2016-12-18 10:22:43, अद्यतन किया गयाः 2016-12-18 11:08:56

सात वापसी तकनीकें जो आपको सीखनी चाहिए


इस लेख में regression analysis के बारे में बताया गया है और इसके फायदे बताए गए हैं। इस लेख में सात सबसे आम regression techniques का सारांश दिया गया है, जिनमें linear regression, logical regression, polynomial regression, step regression, tangent regression, query regression, ElasticNet regression और उनके महत्वपूर्ण तत्व शामिल हैं। ** ** कम्पाइलर के बटन पर पुनरावृत्ति विश्लेषण डेटा के मॉडलिंग और विश्लेषण के लिए एक महत्वपूर्ण उपकरण है। इस लेख में पुनरावृत्ति विश्लेषण के अर्थ और इसके लाभों की व्याख्या की गई है, जिसमें सात सबसे आम पुनरावृत्ति तकनीकों जैसे कि रैखिक पुनरावृत्ति, तार्किक पुनरावृत्ति, बहुपद पुनरावृत्ति, क्रमिक पुनरावृत्ति, कम्पाइलर पुनरावृत्ति, सूचक पुनरावृत्ति, ElasticNet पुनरावृत्ति और उनके महत्वपूर्ण तत्वों पर ध्यान केंद्रित किया गया है। अंत में, सही पुनरावृत्ति मॉडल का चयन करने के लिए महत्वपूर्ण तत्वों का परिचय दिया गया है।

  • रिजनल एनालिसिस क्या है?

    प्रतिगमन विश्लेषण एक पूर्वानुमानात्मक मॉडलिंग तकनीक है जो कारण चर (लक्ष्य) और स्वयं चर (पूर्वानुमानकर्ता) के बीच संबंधों का अध्ययन करती है। यह तकनीक आमतौर पर पूर्वानुमान विश्लेषण, समय अनुक्रम मॉडल और पाए गए चर के बीच कारण संबंध के लिए उपयोग की जाती है। उदाहरण के लिए, ड्राइवरों के लापरवाह ड्राइविंग और सड़क यातायात दुर्घटनाओं की संख्या के बीच संबंध, सबसे अच्छा अध्ययन का तरीका प्रतिगमन है।

    रिग्रेशन एनालिटिक्स डेटा मॉडलिंग और विश्लेषण के लिए एक महत्वपूर्ण उपकरण है। यहाँ, हम इन डेटा बिंदुओं को फिट करने के लिए एक वक्र / रेखा का उपयोग करते हैं, इस तरह, वक्र या रेखा से डेटा बिंदु तक की दूरी में अंतर न्यूनतम है। मैं इसे अगले भाग में विस्तार से समझाऊंगा।

    img

  • हम regression analysis का उपयोग क्यों करते हैं?

    जैसा कि ऊपर उल्लेख किया गया है, प्रतिगमन विश्लेषण दो या अधिक चरों के बीच संबंधों का अनुमान लगाता है। नीचे, आइए इसे समझने के लिए एक सरल उदाहरण देंः

    उदाहरण के लिए, वर्तमान आर्थिक परिस्थितियों में, यदि आप किसी कंपनी के बिक्री वृद्धि का अनुमान लगाना चाहते हैं। अब, आपके पास कंपनी के नवीनतम डेटा हैं, जो दिखाता है कि बिक्री वृद्धि लगभग 2.5 गुना आर्थिक वृद्धि है। तो, regression analysis का उपयोग करके, हम वर्तमान और अतीत की जानकारी के आधार पर भविष्य की कंपनी के बिक्री का अनुमान लगा सकते हैं।

    regression analysis का उपयोग करने के कई फायदे हैं।

    यह स्वयं चर और कारण चर के बीच एक महत्वपूर्ण संबंध दर्शाता है;

    यह कई स्व-परिवर्तनों के प्रभाव की तीव्रता को दर्शाता है।

    regression analysis हमें विभिन्न पैमाने पर मापने वाले चरों के बीच परस्पर प्रभावों की तुलना करने की अनुमति देता है, जैसे कि मूल्य परिवर्तन और प्रचार गतिविधियों की संख्या के बीच संबंध। ये बाजार शोधकर्ताओं, डेटा विश्लेषकों और डेटा वैज्ञानिकों को भविष्यवाणी मॉडल बनाने के लिए उपयोग किए जाने वाले सर्वोत्तम चरों को बाहर निकालने और अनुमानित करने में मदद करते हैं।

  • हमारे पास कितने रिटर्न टेक्नोलॉजी हैं?

    पूर्वानुमान के लिए विभिन्न प्रकार की पुनरावृत्ति तकनीकें उपयोग की जाती हैं। इन तकनीकों में मुख्य रूप से तीन माप होते हैं (स्व-परिवर्तन की संख्या, चर के प्रकार और पुनरावृत्ति रेखा के आकार के कारण) । हम नीचे दिए गए भागों में विस्तार से चर्चा करेंगे।

    img

    रचनात्मक लोगों के लिए, यदि आपको लगता है कि उपरोक्त पैरामीटर के संयोजन का उपयोग करना आवश्यक है, तो आप एक अप्रयुक्त प्रतिगमन मॉडल भी बना सकते हैं। लेकिन शुरू करने से पहले, सबसे अधिक उपयोग किए जाने वाले प्रतिगमन तरीकों के बारे में जानेंः

    • 1. रैखिक प्रतिगमन

      यह सबसे अच्छी तरह से ज्ञात मॉडलिंग तकनीकों में से एक है। रैखिक प्रतिगमन आमतौर पर पूर्वानुमान मॉडल सीखने के लिए पसंदीदा तकनीकों में से एक है। इस तकनीक में, चूंकि चर निरंतर हैं, स्वयं चर निरंतर या असतत हो सकते हैं, और प्रतिगमन रेखाओं की प्रकृति रैखिक है।

      रैखिक पुनरावृत्ति का उपयोग सबसे अच्छी तरह से फिट होने वाली सीधी रेखाओं (यानी पुनरावृत्ति रेखाओं) का उपयोग करके किया जाता है, जो कारक चर (Y) और एक या एक से अधिक स्वयं चर (X) के बीच संबंध स्थापित करती है।

      इसे एक समीकरण द्वारा दर्शाया जाता है, यानि Y = a + b * X + e, जहां a अंतर को दर्शाता है, b रेखा की ढलान को दर्शाता है, और e त्रुटि बिंदु है। यह समीकरण दिए गए पूर्वानुमान चर (s) के आधार पर लक्ष्य चर के मान को अनुमानित कर सकता है।

      img

      एको-रेखीय प्रतिगमन और बहु-रेखीय प्रतिगमन में अंतर यह है कि बहु-रेखीय प्रतिगमन में एक से अधिक चर होता है, जबकि एको-रेखीय प्रतिगमन में आमतौर पर केवल एक से अधिक चर होता है। अब सवाल यह है कि हम एक इष्टतम अनुरूप रेखा कैसे प्राप्त करते हैं?

      सबसे अच्छा फिट लाइन (a और b का मान) कैसे प्राप्त करें?

      यह समस्या न्यूनतम द्विगुणन का उपयोग करके आसानी से पूरी की जा सकती है. न्यूनतम द्विगुणन भी सबसे आम विधि है जो regression line को फिट करने के लिए उपयोग की जाती है. अवलोकन डेटा के लिए, यह प्रत्येक डेटा बिंदु से लाइन तक के ऊर्ध्वाधर विचलन वर्ग के योग को कम करके सबसे अच्छा फिट लाइन का गणना करता है. क्योंकि जोड़ने में, विचलन पहले वर्ग है, इसलिए सकारात्मक और नकारात्मक दोनों का ऑफसेट नहीं होता है।

      img

      हम मॉडल के प्रदर्शन का आकलन करने के लिए R-square indicators का उपयोग कर सकते हैं। इन indicators के बारे में विस्तृत जानकारी के लिए, आप पढ़ सकते हैंः Model Performance Indicators Part 1, Part 2.

      एक बिंदुः

      • स्वयं चर और कारण चर के बीच एक रैखिक संबंध होना चाहिए
      • बहु-उपगमन में बहु-सह-रैखिकता, स्व-संबंध और विभेदकता है।
      • रैखिक पुनरावृत्ति असामान्य मानों के प्रति अतिसंवेदनशील होती है; यह पुनरावृत्ति रेखा को गंभीर रूप से प्रभावित कर सकती है और अंततः पूर्वानुमान को प्रभावित कर सकती है।
      • बहु-सिनलाइनियरिटी गुणांक अनुमानों के अंतर को बढ़ाती है, जिससे मॉडल में मामूली बदलाव के साथ अनुमान बहुत संवेदनशील होते हैं। नतीजतन, गुणांक अनुमान अस्थिर होते हैं।
      • कई स्व-परिवर्तनों के मामले में, हम सबसे महत्वपूर्ण स्व-परिवर्तनों का चयन करने के लिए आगे का चयन, पीछे का हटाने और चरणबद्ध फ़िल्टरिंग का उपयोग कर सकते हैं।
    • 2. लॉजिस्टिक रिग्रेशन लॉजिक रिग्रेशन

      लॉजिकल रिजनरेशन का उपयोग कंक्रीट घटना = सफलता कंक्रीट और कंक्रीट घटना = विफलता कंक्रीट की संभावना की गणना करने के लिए किया जाता है। जब कारण चर का प्रकार द्विआधारी ((1/0, सच/झूठा, हाँ/नहीं) चर है, तो हमें लॉजिकल रिजनरेशन का उपयोग करना चाहिए। यहाँ, Y का मान 0 से 1 तक है, जिसे निम्नलिखित समीकरण द्वारा दर्शाया जा सकता है।

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      उपरोक्त सूत्रों में, p अभिव्यक्ति में एक विशेषता की संभावना होती है. आपको यह सवाल पूछना चाहिएः अरे, हम सूत्र में लॉगरिदम लॉग का उपयोग क्यों करते हैं? अरे.

      चूंकि हम यहाँ द्विआधारी वितरण का उपयोग कर रहे हैं (वैकल्पिक के कारण), हमें इस वितरण के लिए सबसे अच्छा कनेक्शन फ़ंक्शन चुनने की आवश्यकता है। यह लॉगिट फ़ंक्शन है। उपरोक्त समीकरण में, पैरामीटर का चयन करने के लिए, उदाहरण के लिए, बहुत समान अनुमानित मानों को देखने के बजाय, वर्गों और त्रुटियों को कम करने के बजाय (सामान्य पुनरावृत्ति में उपयोग किए जाने वाले) ।

      img

      एक बिंदुः

      • यह व्यापक रूप से वर्गीकरण समस्याओं में प्रयोग किया जाता है।
      • तार्किक पुनरावृत्ति के लिए स्व-परिवर्तन और कारण-परिवर्तन के बीच एक रैखिक संबंध की आवश्यकता नहीं होती है। यह विभिन्न प्रकार के संबंधों को संभाल सकता है क्योंकि यह पूर्वानुमान के सापेक्ष जोखिम सूचकांक OR के लिए एक गैर-रैखिक लॉग रूपांतरण का उपयोग करता है।
      • अत्यधिक अनुकूलन और अनुचित अनुकूलन से बचने के लिए, हमें सभी महत्वपूर्ण चरों को शामिल करना चाहिए। यह सुनिश्चित करने का एक अच्छा तरीका यह है कि एक चरण-दर-चरण फ़िल्टरिंग विधि का उपयोग करके तार्किक प्रतिगमन का अनुमान लगाया जाए।
      • इसके लिए बड़ी मात्रा में नमूने की आवश्यकता होती है, क्योंकि छोटी संख्या में नमूने के साथ, बहुत समान अनुमानित प्रभाव सामान्य न्यूनतम दो गुना से खराब होते हैं।
      • स्व-परिवर्तन एक दूसरे से जुड़े नहीं होने चाहिए, यानी बहु-सह-रेखा नहीं है। हालांकि, विश्लेषण और मॉडलिंग में, हम वर्गीकृत चर के बीच बातचीत के प्रभाव को शामिल करने का विकल्प चुन सकते हैं।
      • यदि कारण चर का मान क्रमबद्ध चर है, तो इसे क्रम के तार्किक प्रतिगमन कहा जाता है।
      • यदि एक चर बहु-वर्ग है, तो इसे बहु-तार्किक प्रतिगमन कहा जाता है।
    • 3. बहुपद प्रतिगमन बहुपद प्रतिगमन

      एक पुनरावृत्ति समीकरण के लिए, यदि स्वयं चर का सूचकांक 1 से अधिक है, तो यह बहुपद पुनरावृत्ति समीकरण है।

      y=a+b*x^2
      

      इस regression तकनीक में, सबसे अच्छा फिट लाइन एक सीधी रेखा नहीं है, बल्कि एक वक्र है जिसका उपयोग डेटा बिंदुओं को फिट करने के लिए किया जाता है।

      img

      मुख्य बातः

      • हालांकि एक प्रेरक है जो एक उच्च-स्तरीय बहुपद के लिए फिट हो सकता है और कम त्रुटि प्राप्त कर सकता है, लेकिन यह ओवरफिट के कारण हो सकता है। आपको अक्सर फिट देखने के लिए संबंध चार्ट खींचने की आवश्यकता होती है, और यह सुनिश्चित करने पर ध्यान केंद्रित करना चाहिए कि फिट उचित है, न तो ओवरफिट और न ही अंडरफिट। नीचे एक उदाहरण दिया गया है जो समझने में मदद करता हैः

      img

      • स्पष्ट रूप से दोनों छोरों के लिए वक्र बिंदुओं की तलाश करें और देखें कि क्या ये आकार और रुझान मायने रखते हैं; उच्चतर बहुपद अंततः अजीब निष्कर्ष निकाल सकते हैं।
    • 4. स्टेपवाइज रिग्रेशन

      जब हम कई स्व-परिवर्तनों के साथ काम करते हैं, तो हम इस प्रकार के प्रतिगमन का उपयोग कर सकते हैं। इस तकनीक में, स्व-परिवर्तनों का चयन एक स्वचालित प्रक्रिया में किया जाता है, जिसमें गैर-मानव संचालन शामिल होता है।

      यह उपलब्धि महत्वपूर्ण चरों की पहचान करने के लिए है, जैसे कि आर-स्क्वायर, टी-स्टेट्स और एआईसी सूचक जैसे आंकड़ों के मानों को देखते हुए। चरणबद्ध प्रतिगमन मॉडल को एक साथ जोड़ने/हटाने के द्वारा मॉडल को फिट करने के लिए निर्धारित मानदंडों के आधार पर सह-परिवर्तकों को हटा देता है। नीचे कुछ सबसे आम चरणबद्ध प्रतिगमन विधियां दी गई हैंः

      • स्टैंडर्ड इक्विपमेंट रेगरेशन दो चीजें करता है, यानी प्रत्येक चरण के लिए आवश्यक भविष्यवाणियों को जोड़ता है और हटाता है।
      • आगे की ओर चयन विधि मॉडल में सबसे महत्वपूर्ण भविष्यवाणियों से शुरू होती है और फिर प्रत्येक चरण के लिए एक चर जोड़ती है।
      • पीछे हटाने का तरीका मॉडल के साथ सभी भविष्यवाणियों के साथ एक साथ शुरू होता है, फिर प्रत्येक चरण में सबसे कम महत्वपूर्ण चर को हटा देता है।
      • इस प्रकार की मॉडलिंग तकनीक का उद्देश्य भविष्यवाणी करने की क्षमता को अधिकतम करने के लिए न्यूनतम संख्या में भविष्यवाणी करने वाले चर का उपयोग करना है। यह उच्च आयामी डेटासेट को संभालने के तरीकों में से एक है।
    • 5. रिज रिग्रेशन कंक्रीट रिवर्स

      घन प्रतिगमन विश्लेषण एक ऐसी तकनीक है जिसका उपयोग बहु-समन्वित डेटा के लिए किया जाता है। बहु-समन्वित स्थितियों में, जबकि न्यूनतम द्विगुणन (ओएलएस) प्रत्येक चर के लिए उचित है, उनके अंतर इतने बड़े हैं कि अवलोकन मूल्य विचलित हो जाते हैं और वास्तविक मूल्य से दूर हो जाते हैं। घन प्रतिगमन मानक त्रुटि को कम करता है, जो कि regression के अनुमान में एक विचलन बढ़ाकर किया जाता है।

      ऊपर, हम एक रैखिक प्रतिगमन समीकरण देखते हैं. याद है? यह कहा जा सकता हैः

      y=a+ b*x
      

      इस समीकरण में एक त्रुटि बिंदु भी है। पूर्ण समीकरण हैः

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      एक रैखिक समीकरण में, पूर्वानुमान त्रुटि को दो उप-घटकों में विभाजित किया जा सकता है; एक विचलन और एक अंतर है; पूर्वानुमान त्रुटि इन दो घटकों या दोनों में से किसी एक के कारण हो सकती है। यहाँ हम अंतर के कारण होने वाली संबंधित त्रुटियों पर चर्चा करेंगे।

      बहुल संरेखण समस्या को हल करने के लिए घन प्रतिगमन को संकुचन पैरामीटर λ ((lambda) द्वारा हल किया जाता है; नीचे दिए गए सूत्र देखें।

      img

      इस सूत्र में दो घटक हैं. पहला सबसे छोटा द्विपद है, दूसरा β2 (β- वर्ग) का एक गुना है, जिसमें β संबंधित गुणक है. संकुचन पैरामीटर के लिए इसे सबसे छोटे द्विपद में जोड़कर बहुत कम वर्गफल मिलता है।

      एक बिंदुः

      • इस प्रकार के प्रतिगमन की परिकल्पना न्यूनतम द्विगुणित प्रतिगमन के समान है, केवल स्थिरांक को छोड़कर;
      • यह संबंधित गुणांक के मान को संकुचित करता है, लेकिन शून्य तक नहीं पहुंचता है, यह दर्शाता है कि इसमें कोई विशेषता चयन कार्य नहीं है
      • यह एक नियमितकरण विधि है और L2 नियमितकरण का उपयोग करता है।
    • 6. लासो रिग्रेशन क्विंटल रिग्रेशन

      यह रैक regression के समान है, जिसमें Lasso (Least Absolute Shrinkage and Selection Operator) भी regression coefficients के absolute value के आकार को दंडित करता है. इसके अतिरिक्त, यह परिवर्तन की डिग्री को कम कर सकता है और रैखिक regression मॉडल की सटीकता को बढ़ा सकता है. नीचे दिए गए सूत्र को देखेंः

      img

      लासो रिवर्सन रिज रिवर्सन से थोड़ा अलग है, इसका उपयोग करने वाला दंड फंक्शन वर्ग के बजाय पूर्ण है; इसका परिणाम यह होता है कि दंड (अथवा जो कि बाध्य अनुमान के पूर्ण मूल्य के योग के बराबर है) का मूल्य कुछ पैरामीटर के अनुमान के परिणाम को शून्य के बराबर कर देता है; इसका उपयोग करने वाले दंड के मूल्य के साथ, आगे का अनुमान शून्य के करीब घटता है; इसका परिणाम यह होगा कि हमें दिए गए n चरों में से एक को चुनना होगा।

      एक बिंदुः

      • इस प्रकार के प्रतिगमन की परिकल्पना न्यूनतम द्विगुणित प्रतिगमन के समान है, केवल स्थिरांक को छोड़कर;
      • इसका संकुचन गुणांक शून्य के करीब है ((समान शून्य), जो विशेषताओं के चयन में मदद करता है;
      • यह एक नियमितकरण विधि है, L1 नियमितकरण का उपयोग किया जाता है;
      • यदि भविष्यवाणी किए गए चरों का एक सेट अत्यधिक प्रासंगिक है, तो लासो उनमें से एक को चुनता है और बाकी को शून्य कर देता है।
    • 7.ElasticNet回归

      ElasticNet Lasso और Ridge regression technology का एक मिश्रण है. यह L1 का उपयोग प्रशिक्षण के लिए करता है और L2 को प्राथमिकता के रूप में नियमितकरण मैट्रिक्स के रूप में करता है. जब कई संबंधित विशेषताएं होती हैं, तो ElasticNet उपयोगी होता है. Lasso उनमें से एक को यादृच्छिक रूप से चुनता है, जबकि ElasticNet दो को चुनता है।

      img

      लासो और रिज के बीच का वास्तविक लाभ यह है कि यह एलास्टिकनेट को रिज की कुछ स्थिरता को लूपिंग में विरासत में देने की अनुमति देता है।

      एक बिंदुः

      • उच्च प्रासंगिकता वाले चर के मामले में, यह समूह प्रभाव पैदा करता है;
      • चयन करने के लिए चर की संख्या की कोई सीमा नहीं है;
      • यह दोहरे संकुचन का सामना कर सकता है।
      • इन 7 सबसे आम रीग्रेशन तकनीकों के अलावा, आप अन्य मॉडलों को भी देख सकते हैं, जैसे कि बेयिसियन, इकोलॉजिकल और रॉबस्ट रीग्रेशन।
    • कैसे एक वापसी मॉडल का सही चयन करने के लिए?

      जब आप केवल एक या दो तकनीकों को जानते हैं, तो जीवन अक्सर सरल होता है। मुझे पता है कि एक प्रशिक्षण संस्थान ने अपने छात्रों को बताया कि यदि परिणाम निरंतर है, तो रैखिक पुनरावृत्ति का उपयोग करें। यदि द्विआधारी है, तो तार्किक पुनरावृत्ति का उपयोग करें! हालांकि, हमारे निपटान में, जितने अधिक विकल्प हैं, उतना ही सही चुनना मुश्किल है। इसी तरह के मामले में पुनरावृत्ति मॉडल में भी होता है।

      बहुवर्गीय प्रतिगमन मॉडल में, स्व-परिवर्तन और परिवर्तन के प्रकार, डेटा के आयाम और डेटा के अन्य बुनियादी गुणों के आधार पर सबसे उपयुक्त तकनीक का चयन करना महत्वपूर्ण है।

      डेटा अन्वेषण पूर्वानुमान मॉडल के निर्माण का एक अनिवार्य हिस्सा है। यह उपयुक्त मॉडल का चयन करने में प्राथमिकता का कदम होना चाहिए, जैसे कि चर के संबंधों और प्रभावों की पहचान करना।

      विभिन्न मॉडलों के लिए उपयुक्त गुणों के लिए, हम विभिन्न संकेतकों के पैरामीटर का विश्लेषण कर सकते हैं, जैसे कि सांख्यिकीय अर्थ के पैरामीटर, आर-स्क्वायर, एडजस्टेड आर-स्क्वायर, एआईसी, बीआईसी और त्रुटि पैरामीटर, एक और मालोव्स क्लोन सीपी दिशानिर्देश। यह मुख्य रूप से आपके मॉडल में संभावित विचलन की जांच करने के लिए सभी संभावित उप-मॉडलों (या उन्हें सावधानीपूर्वक चुनने) के साथ मॉडल की तुलना करके किया जाता है।

      क्रॉस-वेरिफिकेशन भविष्यवाणी मॉडल का मूल्यांकन करने का सबसे अच्छा तरीका है. यहाँ, अपने डेटासेट को दो भागों में विभाजित करें (एक प्रशिक्षण और एक सत्यापन) । अपने भविष्यवाणियों की सटीकता को मापने के लिए अवलोकन और भविष्यवाणियों के बीच एक सरल औसत अंतर का उपयोग करें।

      यदि आपका डेटासेट कई मिश्रित चर है, तो आपको स्वचालित मॉडल चयन विधि का चयन नहीं करना चाहिए, क्योंकि आपको सभी चर को एक ही मॉडल में एक ही समय में नहीं रखना चाहिए।

      यह आपके उद्देश्य पर भी निर्भर करेगा। ऐसी स्थिति हो सकती है कि एक कम शक्तिशाली मॉडल उच्च सांख्यिकीय महत्व वाले मॉडल की तुलना में अधिक आसानी से लागू हो।

      पुनरावर्ती नियमन (Lasso, Ridge और ElasticNet) उच्च आयामों और डेटासेट चर के बीच कई सह-रेखागत स्थितियों में अच्छी तरह से काम करता है।

सीएसडीएन से अनुप्रेषित


अधिक