मशीन सीखने के 8 बड़े एल्गोरिदम की तुलना

लेखक:छोटे सपने, बनाया गयाः 2016-12-05 10:42:02, अद्यतन किया गयाः

मशीन सीखने के 8 बड़े एल्गोरिदम की तुलना

इस लेख में मुख्य रूप से निम्नलिखित सामान्य रूप से उपयोग किए जाने वाले एल्गोरिदम के अनुकूलन परिदृश्यों और उनके फायदे और नुकसान की समीक्षा की गई है!

बहुत सारे मशीन लर्निंग एल्गोरिदम हैं, वर्गीकरण, प्रतिगमन, वर्गीकरण, अनुशंसा, छवि पहचान आदि क्षेत्रों में, एक उपयुक्त एल्गोरिथ्म ढूंढना वास्तव में आसान नहीं है, इसलिए व्यावहारिक अनुप्रयोगों में, हम आमतौर पर प्रेरित सीखने के तरीके का उपयोग करके प्रयोग करते हैं।

सामान्य तौर पर, हम सबसे पहले सामान्य रूप से स्वीकृत एल्गोरिदम चुनते हैं, जैसे कि एसवीएम, जीबीडीटी, एडाबॉस्ट, जो अब डीपी लर्निंग के लिए गर्म हैं, और तंत्रिका नेटवर्क भी एक अच्छा विकल्प है।

यदि आप सटीकता के बारे में चिंतित हैं, तो सबसे अच्छा तरीका यह है कि प्रत्येक एल्गोरिथ्म को क्रॉस-वैलिडेशन के माध्यम से व्यक्तिगत रूप से परीक्षण किया जाए, तुलना की जाए, और फिर पैरामीटर को समायोजित किया जाए ताकि प्रत्येक एल्गोरिथ्म को सर्वोत्तम प्राप्त हो सके, और अंत में सबसे अच्छा चुनें।

लेकिन अगर आप सिर्फ एक ऐसे एल्गोरिथ्म की तलाश कर रहे हैं जो आपकी समस्या को हल करने के लिए पर्याप्त रूप से अच्छा है, या यहां कुछ युक्तियां दी गई हैं, तो नीचे दिए गए एल्गोरिथ्म के फायदे और नुकसान का विश्लेषण करने के लिए, एल्गोरिथ्म के फायदे और नुकसान के आधार पर इसे चुनना आसान है।

विकृति और पक्षपात

सांख्यिकी में, एक मॉडल अच्छा है या बुरा है, यह विचलन और अंतर के आधार पर मापा जाता है, इसलिए हम पहले विचलन और अंतर को आम करने जा रहे हैंः

विचलनः यह अनुमानित मूल्य के अपेक्षित E और वास्तविक मूल्य Y के बीच के अंतर का वर्णन करता है। विचलन जितना बड़ा होगा, वास्तविक डेटा से उतना ही अधिक होगा।

अंतरः यह वर्णन करता है कि अनुमानित मूल्य P में परिवर्तन का दायरा, विखंडन, अनुमानित मूल्य का अंतर है, यानी इसकी अपेक्षित मूल्य E से दूरी।

मॉडल की वास्तविक त्रुटि दोनों का योग है, जैसा कि चित्र में दिखाया गया हैः

यदि यह एक छोटा प्रशिक्षण सेट है, तो उच्च-अवरोध/निम्न-अवरोध वर्गीकरणकर्ता (जैसे, सरल बेयर्स एनबी) कम-अवरोध/उच्च-अवरोध वर्गीकरण (जैसे, केएनएन) की तुलना में अधिक लाभप्रद है क्योंकि बाद वाला अधिक फिट होता है।

हालांकि, जैसे-जैसे आपका प्रशिक्षण सेट बढ़ता है, मॉडल मूल डेटा के लिए बेहतर भविष्यवाणी करने में सक्षम होता है, विचलन कम हो जाता है, जिसके बाद कम विचलन/उच्च विचलन वर्गीकरणकर्ता धीरे-धीरे अपने लाभों का प्रदर्शन करते हैं (क्योंकि उनके पास कम समीकरण त्रुटि है) और उच्च विचलन वर्गीकरणकर्ता अब सटीक मॉडल प्रदान करने के लिए पर्याप्त नहीं है।

बेशक, आप यह भी सोच सकते हैं कि यह जनरेटिंग मॉडल (NB) और निर्णय मॉडल (KNN) के बीच का अंतर है।

एक बार जब आप एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से एक बार फिर से।

निम्नलिखित सामग्री के बारे में सूचित करेंः

सबसे पहले, मान लीजिए कि आप प्रशिक्षण सेट और परीक्षण सेट के बीच संबंध जानते हैं. सरल शब्दों में, हम प्रशिक्षण सेट पर एक मॉडल सीखना चाहते हैं, और फिर परीक्षण सेट का उपयोग करने के लिए, परिणाम या तो परीक्षण सेट के त्रुटि दर के आधार पर मापा जाता है.

लेकिन कई बार, हम केवल यह मान सकते हैं कि परीक्षण सेट और प्रशिक्षण सेट एक ही डेटा वितरण के अनुरूप हैं, लेकिन वास्तविक परीक्षण डेटा प्राप्त नहीं करते हैं।

क्योंकि प्रशिक्षण के नमूने बहुत कम हैं (कम से कम पर्याप्त नहीं हैं), इसलिए प्रशिक्षण सेट द्वारा प्राप्त मॉडल हमेशा सही नहीं होते हैं. यहां तक कि प्रशिक्षण सेट पर 100% सटीकता भी यह नहीं कह सकती कि यह वास्तविक डेटा वितरण को चित्रित करता है, यह जानना कि वास्तविक डेटा वितरण को चित्रित करना हमारा उद्देश्य है, न कि केवल प्रशिक्षण सेट के सीमित डेटा बिंदुओं को चित्रित करना) ।

और, वास्तव में, प्रशिक्षण नमूनों में अक्सर कुछ शोर त्रुटि होती है, इसलिए यदि प्रशिक्षण सेट पर पूर्णता का बहुत अधिक प्रयास किया जाता है, तो एक बहुत ही जटिल मॉडल का उपयोग करके, मॉडल को प्रशिक्षण सेट में सभी त्रुटियों को वास्तविक डेटा वितरण विशेषता के रूप में प्रस्तुत करना पड़ता है, जिससे गलत डेटा वितरण अनुमान प्राप्त होता है।

इस प्रकार, वास्तविक परीक्षण सेटों पर गलतियां हो जाती हैं, लेकिन बहुत सरल मॉडल का उपयोग नहीं किया जा सकता है, क्योंकि यदि डेटा वितरण अधिक जटिल है, तो मॉडल डेटा वितरण को चित्रित करने के लिए पर्याप्त नहीं है।

अति-अनुरूपता का अर्थ है कि मॉडल वास्तविक डेटा वितरण की तुलना में अधिक जटिल है, जबकि अनुरूपता का अर्थ है कि मॉडल वास्तविक डेटा वितरण की तुलना में सरल है।

सांख्यिकीय सीखने के ढांचे में, जब हम मॉडल की जटिलता को चित्रित करते हैं, तो यह विचार होता है कि त्रुटि = पूर्वाग्रह + भिन्नता। यहाँ त्रुटि को शायद मॉडल की भविष्यवाणी की त्रुटि दर के रूप में समझा जा सकता है, जो दो भागों से बना है, एक भाग में अनुमानों का गलत हिस्सा (Bias) जो मॉडल के बहुत सरल होने के कारण होता है, और दूसरा भाग जो मॉडल के बहुत जटिल होने के कारण अधिक परिवर्तन स्थान और अनिश्चितता (Variance) होता है।

इस प्रकार, यह सरल बेयर्स का विश्लेषण करना आसान है; यह एक बहुत ही सरल मॉडल है, जो कि डेटा के बीच असंबद्धता की एक सरल धारणा को मानता है; इसलिए, इस तरह के एक सरल मॉडल के लिए, अधिकांश मामलों में, Bias भाग भिन्नता भाग से बड़ा होगा, यानी उच्च विचलन और निम्न विचलन।

वास्तव में, त्रुटि को कम से कम करने के लिए, हमें मॉडल चुनने के दौरान व्यस और भिन्नता के अनुपात को संतुलित करने की आवश्यकता होती है, यानी ओवर-फिटिंग और अंडर-फिटिंग को संतुलित करना।

विचलन और अंतर के मॉडल जटिलता के संबंध को निम्न चित्र का उपयोग करके स्पष्ट किया गया हैः

जैसा कि मॉडल की जटिलता बढ़ जाती है, विचलन धीरे-धीरे कम हो जाता है, जबकि विचलन धीरे-धीरे बढ़ जाता है।

आम एल्गोरिदम के फायदे और नुकसान
- 1.朴素贝叶斯
  
  सरल बेयर्स जनरेटिव मॉडल से संबंधित हैं (जनरेटिव मॉडल और निर्धारक मॉडल के बारे में, या मुख्य रूप से संयुक्त वितरण की आवश्यकता है या नहीं) बहुत सरल है, आप बस एक ढेर गिनती करते हैं।
  
  यदि आप एक सशर्त स्वतंत्रता परिकल्पना (एक सख्त शर्त) पर भरोसा करते हैं, तो एक सरल बेयर्स वर्गीकरणकर्ता का संकुचन गति एक तर्कसंगत प्रतिगमन के रूप में मॉडल को परिभाषित करने की तुलना में तेज होगी, इसलिए आपको कम प्रशिक्षण डेटा की आवश्यकता होगी।
  
  इसका मुख्य दोष यह है कि यह विशेषताओं के बीच बातचीत का अध्ययन नहीं कर सकता है, एमआरएमआर में आर के रूप में, यह विशेषताओं की आवश्यकता से अधिक है। उदाहरण के लिए, यदि आप ब्रैड पिट और टॉम क्रूज़ की फिल्मों को पसंद करते हैं, तो यह उन फिल्मों को नहीं सीख सकता है जिन्हें आप पसंद नहीं करते हैं।
  
  लाभः
  
  सरल बेयर्स मॉडल शास्त्रीय गणितीय सिद्धांतों से उत्पन्न होता है, जिसमें एक ठोस गणितीय आधार होता है और स्थिर वर्गीकरण दक्षता होती है। छोटे पैमाने पर डेटा के लिए अच्छा प्रदर्शन, बहु-वर्ग के कार्यों को संभाल सकता है, जो वृद्धिशील प्रशिक्षण के लिए उपयुक्त है; यह खोए हुए डेटा के प्रति संवेदनशील नहीं है, और एल्गोरिदम अपेक्षाकृत सरल है, जिसे अक्सर पाठ वर्गीकरण के लिए उपयोग किया जाता है। कमियांः
  
  एक पूर्वानुमान की गणना की आवश्यकता है; वर्गीकृत निर्णयों में त्रुटि की दर है; इनपुट डेटा के अभिव्यक्ति के रूप के प्रति संवेदनशील है।
- 2.逻辑回归
  
  यह एक विशिष्ट मॉडल है, जिसमें कई विधि हैं (L0, L1, L2, आदि) और आपको यह चिंता करने की ज़रूरत नहीं है कि आपके लक्षण प्रासंगिक हैं या नहीं, जैसा कि सरल बेयर्स के साथ होता है।
  
  आपको निर्णय वृक्षों और एसवीएम मशीनों की तुलना में एक अच्छी संभावना व्याख्या भी मिलती है, और आप नए डेटा का उपयोग करके मॉडल को आसानी से अपडेट कर सकते हैं (ऑनलाइन ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके) ।
  
  यदि आपको एक संभावना संरचना की आवश्यकता है (उदाहरण के लिए, केवल वर्गीकरण थ्रेशोल्ड को समायोजित करने के लिए, अनिश्चितता को इंगित करने के लिए, या विश्वास सीमा प्राप्त करने के लिए), या आप बाद में अधिक प्रशिक्षण डेटा को तेजी से मॉडल में एकीकृत करना चाहते हैं, तो इसका उपयोग करें।
  
  Sigmoid फ़ंक्शन:
  
  लाभः सरल और व्यापक रूप से औद्योगिक मुद्दों पर लागू किया जा सकता है; वर्गीकरण के दौरान बहुत कम गणना, तेज गति और कम भंडारण संसाधन; एक सुविधाजनक अवलोकन नमूना संभावना स्कोर; तर्कसंगत प्रतिगमन के लिए, बहुआयामी सह-रेखाबद्धता कोई समस्या नहीं है, जिसे L2 नियमितकरण के साथ हल किया जा सकता है; कमियांः जब विशेषता स्थान बहुत बड़ा होता है, तो तार्किक प्रतिगमन का प्रदर्शन अच्छा नहीं होता है; आसानी से अनुचित फिट, सामान्य रूप से कम सटीकता बड़ी संख्या में गुणों या चरों को अच्छी तरह से संभालने में असमर्थ; केवल दो वर्गीकरण समस्याओं (इस आधार पर व्युत्पन्न सॉफ्टमैक्स बहु-वर्गों के लिए उपयोग किया जा सकता है) को संभाल सकता है और रैखिक रूप से विभाज्य होना चाहिए; गैर-रैखिक विशेषताओं के लिए, रूपांतरण की आवश्यकता होती है;
- 3.线性回归
  
  Linear regression का उपयोग regression के लिए किया जाता है, जबकि Logistic regression का उपयोग classification के लिए किया जाता है। इसका मूल विचार gradient descent method का उपयोग करके न्यूनतम द्विगुणन के रूप में त्रुटि कार्यों का अनुकूलन करना है।
  
  जबकि LWLR (स्थानीय भारित रैखिक प्रतिगमन) में, पैरामीटर का गणना अभिव्यक्ति हैः
  
  इस प्रकार, एलडब्ल्यूएलआर एलआर से अलग है, एलडब्ल्यूएलआर एक गैर-पैरामीट्री मॉडल है, क्योंकि प्रत्येक पुनरावृत्ति गणना के लिए प्रशिक्षण नमूने को कम से कम एक बार जाना पड़ता है।
  
  लाभः सरल कार्यान्वयन, सरल गणना;
  
  नुकसानः गैर-रैखिक डेटा को फिट नहीं कर सकता।
- 4.最近邻算法——KNN
  
  केएनएन, निकटतम पड़ोसी एल्गोरिथ्म, इसकी मुख्य प्रक्रियाएं हैंः
  1. प्रशिक्षण नमूने और परीक्षण नमूने में प्रत्येक नमूना बिंदु की दूरी की गणना (सामान्य दूरी माप में यूरोपीय दूरी, मार्शल दूरी आदि हैं);
  2. उपरोक्त सभी दूरी मानों को क्रमबद्ध करें;
  3. सबसे कम दूरी के k नमूनों का चयन करें;
  4. इस k नमूने के टैग के आधार पर मतदान किया जाता है और अंतिम वर्गीकरण श्रेणी प्राप्त की जाती है;
  डेटा पर निर्भर करता है कि एक इष्टतम के-वैल्यू का चयन कैसे किया जाता है; सामान्य तौर पर, वर्गीकरण के दौरान एक बड़ा के-वैल्यू शोर के प्रभाव को कम कर सकता है; लेकिन श्रेणियों के बीच की सीमाओं को धुंधला कर सकता है।
  
  एक बेहतर K मान को विभिन्न प्रेरित तकनीकों के माध्यम से प्राप्त किया जा सकता है, जैसे कि क्रॉस-प्रूफिंग। इसके अलावा, शोर और असंबद्धता विशेषता वैक्टर की उपस्थिति K निकटवर्ती एल्गोरिदम की सटीकता को कम कर देती है।
  
  समीपवर्ती एल्गोरिदम के परिणाम अधिक सुसंगत होते हैं. डेटा अनंत होने के साथ, एल्गोरिदम गारंटी देता है कि त्रुटि की दर बेयिस एल्गोरिथ्म की त्रुटि की दर से दो गुना से अधिक नहीं होगी. कुछ अच्छे K-मूल्यों के लिए, K-समीपवर्ती गारंटी देता है कि त्रुटि की दर बेयिस सैद्धांतिक त्रुटि से अधिक नहीं होगी।
  
  केएनएन एल्गोरिदम के फायदे
  
  सिद्धांत परिपक्व है, विचार सरल है, और इसे वर्गीकरण और प्रतिगमन दोनों के लिए इस्तेमाल किया जा सकता है। गैर-रैखिक वर्गीकरण के लिए उपयोग किया जा सकता है; प्रशिक्षण समय जटिलता O ((n) है; डेटा के लिए कोई धारणा नहीं, उच्च सटीकता, आउटलीयर के प्रति संवेदनशील नहीं; कमियां
  
  यह बहुत बड़ा है। नमूना असंतुलन समस्या (यानी कुछ श्रेणियों में बहुत सारे नमूने हैं, जबकि अन्य में बहुत कम); यह बहुत बड़ी मेमोरी की आवश्यकता है।
- 5.决策树
  
  व्याख्या करना आसान है. यह तनाव मुक्त रूप से विशेषताओं के बीच के संबंधों को संभालता है और गैर-पैरामीटर है, इसलिए आपको चिंता करने की ज़रूरत नहीं है कि असामान्य मान या डेटा रैखिक रूप से विभाजित है (उदाहरण के लिए, निर्णय पेड़ आसानी से किसी विशेषताओं के आयाम x के अंत में श्रेणी A को संभालता है, बीच में श्रेणी B, और फिर श्रेणी A विशेषता आयाम x के सामने दिखाई देती है) ।
  
  इसके कमियों में से एक यह है कि यह ऑनलाइन सीखने का समर्थन नहीं करता है, इसलिए नए नमूने आने के बाद निर्णय पेड़ को पूरी तरह से फिर से बनाना होगा।
  
  एक और कमजोरी यह है कि अनुकूलन में आसानी होती है, लेकिन यह एक अंतर बिंदु है जो एकीकरण के तरीकों जैसे कि रैंडम फॉरेस्ट आरएफ (या पेड़ को बढ़ावा देने वाले पेड़) में प्रवेश करता है।
  
  इसके अलावा, रैंडम फॉरेस्ट अक्सर कई वर्गीकरण समस्याओं का विजेता होता है (आमतौर पर समर्थित वेक्टर मशीन से थोड़ा बेहतर), यह तेजी से प्रशिक्षित होता है और समायोजित किया जा सकता है, और आपको समर्थित वेक्टर मशीन की तरह कई पैरामीटर समायोजित करने की चिंता नहीं करनी चाहिए, इसलिए यह पहले से ही लोकप्रिय है।
  
  निर्णय वृक्ष में एक महत्वपूर्ण बात यह है कि एक विशेषता का चयन करने के लिए शाखाओं, इसलिए ध्यान देना चाहिए सूचना वृद्धि के लिए गणना सूत्र और इसे गहराई से समझने के लिए है ।
  
  जानकारी की कुंजी के लिए गणना सूत्र इस प्रकार हैः
  
  इनमें से n के लिए n वर्गीकरण श्रेणियां हैं (जैसे कि मान लीजिए कि यह 2 श्रेणियों की समस्या है, तो n = 2) । इन दो श्रेणियों के नमूने के कुल नमूने में होने की संभावनाओं p1 और p2 को अलग-अलग गणना करें, ताकि अनचेक किए गए गुणों के विभक्त होने से पहले सूचना की मात्रा की गणना की जा सके ।
  
  अब एक विशेषता xxi का चयन किया जाता है जिसका उपयोग शाखाओं को करने के लिए किया जाता है, इस समय शाखाओं के नियम हैंः यदि x = vxi = v, तो नमूने को पेड़ के एक शाखा में विभाजित करें; यदि यह समान नहीं है, तो दूसरे शाखा में जाएं।
  
  यह स्पष्ट है कि शाखाओं में नमूने में दो श्रेणियां शामिल होने की संभावना है, और दोनों शाखाओं के लिए H1 और H2 की गणना की जाती है, और शाखाओं के बाद कुल सूचना H1 = p1 H1 + p2 H2 की गणना की जाती है, तो सूचना वृद्धि ΔH = H - H2 है। सूचना वृद्धि के सिद्धांत के अनुसार, सभी गुणों को एक तरफ रखा जाता है, और सबसे अधिक वृद्धि करने वाली विशेषता को इस शाखा की विशेषता के रूप में चुना जाता है।
  
  निर्णय वृक्ष के फायदे
  
  सरल, समझने में आसान और व्याख्या करने में सक्षम; अनुपलब्ध गुणों वाले नमूनों की तुलना करना; यह एक बहुत ही महत्वपूर्ण विषय है, और यह एक बहुत ही महत्वपूर्ण विषय है। बड़े डेटा स्रोतों पर अपेक्षाकृत कम समय में व्यवहार्य और प्रभावी परिणाम प्राप्त करने में सक्षम। कमियां
  
  यह भी कहा जाता है कि यह एक बहुत ही जटिल समस्या है, क्योंकि यह एक बहुत ही जटिल समस्या है। इस तरह के आंकड़ों के बीच की प्रासंगिकता को नजरअंदाज कर दिया गया है। उन आंकड़ों के लिए जिनके विभिन्न श्रेणियों के नमूने की संख्या असंगत है, निर्णय वृक्ष में, सूचना वृद्धि के परिणाम अधिक संख्यात्मक गुणों के लिए पक्षपाती होते हैं (जब भी सूचना वृद्धि का उपयोग किया जाता है, तो यह नुकसान होता है, जैसे कि आरएफ) ।
- 5.1 अनुकूलन
  
  Adaboost एक योग मॉडल है, जिसमें प्रत्येक मॉडल पिछले मॉडल की त्रुटि दर के आधार पर बनाया गया है, गलत वर्गीकृत नमूनों पर बहुत अधिक ध्यान देने के बजाय सही वर्गीकृत नमूनों पर कम ध्यान देने के साथ, एक अपेक्षाकृत बेहतर मॉडल प्राप्त करने के लिए एक बार फिर से पुनरावृत्ति के बाद। यह एक विशिष्ट बूस्टिंग एल्गोरिथ्म है। इसके फायदे और नुकसान नीचे संक्षेप में बताए गए हैं।
  
  फायदे
  
  adaboost एक बहुत ही सटीक वर्गीकरण उपकरण है। विभिन्न तरीकों से एक उप वर्गीकरण का निर्माण किया जा सकता है, ढांचा एडाबोस्ट एल्गोरिथ्म द्वारा प्रदान किया जाता है। जब सरल वर्गीकरण का उपयोग किया जाता है, तो गणना किए गए परिणाम समझ में आते हैं, और कमजोर वर्गीकरण का निर्माण बेहद सरल होता है। यह सरल है, इसमें फ़ीचर फ़िल्टरिंग की आवश्यकता नहीं है। इस तरह की घटनाओं में बहुत कम लोग शामिल होते हैं। रैंडम फॉरेस्ट और जीबीडीटी जैसे संयोजन एल्गोरिदम के बारे में, इस लेख को देखेंः मशीन लर्निंग - संयोजन एल्गोरिदम सारांश
  
  कमजोरीः आउटलीयर के प्रति संवेदनशील
- 6.SVM支持向量机
  
  उच्च सटीकता, अति-अनुरूपता से बचने के लिए एक अच्छा सैद्धांतिक आश्वासन प्रदान करती है, और जब तक यह एक उपयुक्त कोर फ़ंक्शन देता है, तब तक यह अच्छी तरह से काम करता है, भले ही डेटा मूल विशेषता स्थान में रैखिक रूप से अविभाज्य हो।
  
  यह विशेष रूप से गतिशील अल्ट्रा-उच्च आयामी पाठ वर्गीकरण समस्याओं में लोकप्रिय है। दुर्भाग्य से, मेमोरी का उपयोग करना बहुत कठिन है, इसे समझना मुश्किल है, और इसे चलाने और समायोजित करने में कुछ परेशानी भी है, जबकि रैंडम वन इन कमियों से बच गया है, जो कि व्यावहारिक है।
  
  फायदे यह उच्च आयामी समस्याओं को हल कर सकता है, अर्थात् बड़े विशेषता स्थानों को। यह गैर-रैखिक विशेषताओं के साथ बातचीत को संभाल सकता है। यह डेटा के पूरे सेट पर निर्भर नहीं करता है। यह व्यापक क्षमता को बढ़ा सकता है।
  
  कमियां जब बहुत सारे नमूने देखे जाते हैं, तो प्रभावशीलता बहुत अधिक नहीं होती है। गैर-रैखिक समस्याओं के लिए कोई सामान्य समाधान नहीं है और कभी-कभी एक उपयुक्त नाभिक फ़ंक्शन खोजना मुश्किल होता है। खोए हुए डेटा के प्रति संवेदनशील; नाभिक के चयन के लिए भी सरल है (libsvm में चार नाभिक फ़ंक्शन हैंः रैखिक नाभिक, बहुपद नाभिक, आरबीएफ और सिग्मोइड नाभिक):
  
  सबसे पहले, यदि नमूना संख्या लक्षण संख्या से कम है, तो गैर-रैखिक नाभिकों का चयन करना आवश्यक नहीं है, सरल रैखिक नाभिकों का उपयोग करना पर्याप्त है;
  
  दूसरा, यदि नमूने की संख्या लक्षणों की संख्या से अधिक है, तो नमूना को उच्च आयामों में मानचित्रित करने के लिए एक गैर-रैखिक नाभिक का उपयोग किया जा सकता है, जो आम तौर पर बेहतर परिणाम देता है।
  
  तीसरा, यदि नमूना संख्या और लक्षण संख्या समान हैं, तो इस स्थिति में एक गैर-रैखिक नाभिक का उपयोग किया जा सकता है, सिद्धांत रूप में दूसरे के समान।
  
  पहले मामले में, डेटा को पहले कम किया जा सकता है और फिर एक गैर-रैखिक कोर का उपयोग किया जा सकता है, जो एक तरीका है।
- 7. ए.एन.वी. के फायदे और नुकसान
  
  एक आर्टिफिशियल न्यूरोनेट के फायदेः वर्गीकरण की उच्च सटीकता; यह एक बहुत ही मजबूत, समान रूप से वितरित प्रसंस्करण, वितरित भंडारण और सीखने की क्षमता है। शोर तंत्रिकाओं के लिए मजबूत लचीलापन और त्रुटि-सहिष्णुता, जो जटिल गैर-रैखिक संबंधों के लिए पर्याप्त रूप से करीब है; यह एक बहुत ही उपयोगी और उपयोगी उपकरण है।
  
  यह एक बहुत ही अच्छा तरीका है कि हम अपने स्वयं के नेटवर्क का उपयोग कर सकते हैं। तंत्रिका नेटवर्क को बहुत सारे पैरामीटर की आवश्यकता होती है, जैसे कि नेटवर्क टोपोलॉजी संरचना, वजन और थ्रेशोल्ड के प्रारंभिक मान; अवलोकन के बीच सीखने की प्रक्रिया, आउटपुट परिणामों की व्याख्या करना मुश्किल है, जो परिणामों की विश्वसनीयता और स्वीकार्यता को प्रभावित करता है; बहुत अधिक समय तक अध्ययन करना, और शायद अध्ययन के उद्देश्य तक नहीं पहुंचना।
- 8 K-Means समूह
  
  K-Means समूह के बारे में पहले एक लेख लिखा था, ब्लॉग लिंकः मशीन सीखने के एल्गोरिदम - K-means समूह; K-Means के बारे में अनुमान, जिसमें बहुत मजबूत ईएम विचार हैं।
  
  फायदे एल्गोरिदम सरल और लागू करने में आसान है; यह एल्गोरिथ्म बड़े डेटासेट के लिए अपेक्षाकृत स्केलेबल और कुशल है क्योंकि इसकी जटिलता लगभग O ((nkt) है, जहां n सभी वस्तुओं की संख्या है, k घनत्व की संख्या है, और t पुनरावृत्ति की संख्या है। आमतौर पर k< एल्गोरिथ्म सबसे कम वर्ग त्रुटि फ़ंक्शन मान वाले k विभाजनों को खोजने का प्रयास करता है। समूह प्रभाव तब बेहतर होता है जब कण घने, गोलाकार या गुच्छेदार होते हैं और कण और कण के बीच स्पष्ट अंतर होता है।
  
  कमियां डेटा प्रकार के लिए उच्च आवश्यकताएं, संख्यात्मक डेटा के लिए उपयुक्त; स्थानीय न्यूनतम के लिए अभिसरण हो सकता है, बड़े पैमाने पर डेटा पर धीमा अभिसरण K मान का चयन करना मुश्किल है; आरंभिक मानों के लिए संवेदनशील, विभिन्न आरंभिक मानों के लिए अलग-अलग समूह परिणाम हो सकते हैं; अलंकारों के लिए उपयुक्त नहीं है, या आकार में बहुत अंतर है। इस प्रकार के आंकड़ों का एक छोटा सा हिस्सा औसत पर बहुत प्रभाव डाल सकता है।
  
  एल्गोरिथ्म संदर्भ चुनता है
  
  एक लेख में एक सरल एल्गोरिथ्म चयन युक्तियाँ दी गई हैं:
  
  सबसे पहले, लॉजिकल रिग्रेशन को चुना जाना चाहिए, और यदि इसका प्रभाव अच्छा नहीं है, तो इसके परिणामों को अन्य एल्गोरिदम के साथ आधार पर तुलना करने के लिए एक संदर्भ के रूप में लिया जा सकता है।
  
  फिर निर्णय वृक्ष (रैंडम फ़ॉरेस्ट) का परीक्षण करें और देखें कि क्या यह आपके मॉडल के प्रदर्शन में काफी सुधार कर सकता है। यहां तक कि अगर आप इसे अंतिम मॉडल के रूप में समाप्त नहीं करते हैं, तो आप रैंडम फ़ॉरेस्ट का उपयोग शोर चर को हटाने और विशेषता चयन करने के लिए कर सकते हैं।
  
  यदि लक्षणों की संख्या और अवलोकन नमूने विशेष रूप से अधिक हैं, तो जब संसाधन और समय पर्याप्त हैं (यह एक महत्वपूर्ण शर्त है) तो एसवीएम का उपयोग करना एक विकल्प है।
  
  सामान्य तौर परः GBDT>=SVM>=RF>=Adaboost>=Other... ओह, अब गहरी शिक्षा बहुत लोकप्रिय है, कई क्षेत्रों में उपयोग किया जाता है, यह तंत्रिका नेटवर्क पर आधारित है, वर्तमान में मैं खुद भी सीख रहा हूं, लेकिन सैद्धांतिक ज्ञान बहुत मोटा नहीं है, समझने के लिए पर्याप्त गहराई नहीं है, इसलिए यहां परिचय नहीं है।
  
  एल्गोरिदम महत्वपूर्ण हैं, लेकिन अच्छे डेटा अच्छे एल्गोरिदम से बेहतर होते हैं, और अच्छे गुणों को डिजाइन करना बहुत फायदेमंद होता है। यदि आपके पास एक बहुत बड़ा डेटासेट है, तो आपके द्वारा उपयोग किए जाने वाले किसी भी एल्गोरिथ्म का वर्गीकरण प्रदर्शन पर बहुत अधिक प्रभाव नहीं पड़ सकता है (इस समय गति और उपयोग में आसानी के आधार पर विकल्प चुन सकते हैं) ।
संदर्भ