मशीन लर्निंग के 3 बड़े वर्गीकरणों के 6 बड़े एल्गोरिदम के फायदे और नुकसान

लेखक:छोटे सपने, बनाया गयाः 2017-10-30 12:01:59, अद्यतन किया गयाः 2017-11-08 13:55:03

मशीन लर्निंग के 3 बड़े वर्गीकरणों के 6 बड़े एल्गोरिदम के फायदे और नुकसान

मशीन लर्निंग में, लक्ष्य या तो पूर्वानुमान (prediction) या क्लस्टरिंग (clustering) है। इस लेख का ध्यान पूर्वानुमान (prediction) पर केंद्रित है। पूर्वानुमान (prediction) एक इनपुट चर के सेट से आउटपुट चर के मूल्य का अनुमान लगाने की प्रक्रिया है। उदाहरण के लिए, एक घर के बारे में विशेषताओं के एक सेट को प्राप्त करने के बाद, हम इसकी बिक्री मूल्य का अनुमान लगा सकते हैं। पूर्वानुमान समस्याओं को दो श्रेणियों में विभाजित किया जा सकता हैः यह समझते हुए, चलिए मशीन लर्निंग में सबसे प्रमुख और सबसे अधिक उपयोग किए जाने वाले एल्गोरिदम को देखते हैं। हम उन्हें तीन श्रेणियों में विभाजित करते हैंः रैखिक मॉडल, पेड़-आधारित मॉडल और तंत्रिका नेटवर्क, और मुख्य रूप से छह आम उपयोग किए जाने वाले एल्गोरिदम पर ध्यान केंद्रित करते हैंः

img

एक, रैखिक मॉडल एल्गोरिथ्मः रैखिक मॉडल सरल सूत्रों का उपयोग करता है, जो डेटा बिंदुओं के एक सेट के माध्यम से सबसे अच्छा फिट बैठता है। यह विधि 200 से अधिक वर्षों से चली आ रही है और सांख्यिकी और मशीन सीखने दोनों क्षेत्रों में व्यापक रूप से उपयोग की जाती है। इसकी सादगी के कारण, यह सांख्यिकी के लिए उपयोगी है। जो चर आप भविष्यवाणी करना चाहते हैं उसे चर के समीकरण के रूप में दर्शाया जाता है जिसे आप पहले से ही जानते हैं (स्व-परिवर्तन), इसलिए भविष्यवाणी करना केवल एक समस्या है जिसमें आप स्वयं को एक चर दर्ज करते हैं और फिर समीकरण के उत्तरों को हल करते हैं।

  • 1.线性回归

    रैखिक पुनरावृत्ति, या अधिक सटीक रूप से कहा जाता है कि सबसे कम दो गुना पुनरावृत्ति पुनरावृत्ति, रैखिक मॉडल का सबसे मानक रूप है। पुनरावृत्ति समस्याओं के लिए, रैखिक पुनरावृत्ति सबसे सरल रैखिक मॉडल है। इसका नुकसान यह है कि मॉडल आसानी से ओवरफैट हो जाता है, यानी मॉडल पूरी तरह से प्रशिक्षित डेटा के लिए अनुकूलित होता है, नए डेटा में प्रसारित करने की क्षमता का त्याग करता है। इसलिए, मशीन सीखने में रैखिक पुनरावृत्ति (और लॉजिकल पुनरावृत्ति, जिसके बारे में हम बाद में बात करेंगे) अक्सर रैखिक रूप से अनुकूलित होती है, जिसका अर्थ है कि मॉडल को ओवरफैट होने से रोकने के लिए कुछ दंड होता है।

    रैखिक मॉडलों का एक और नुकसान यह है कि वे बहुत सरल होने के कारण, अधिक जटिल व्यवहार की भविष्यवाणी करना आसान नहीं है जब इनपुट चर स्वतंत्र नहीं होते हैं।

  • 2.逻辑回归

    तार्किक पुनरावृत्ति वर्गीकरण समस्या के लिए रैखिक पुनरावृत्ति का अनुकूलन है। तार्किक पुनरावृत्ति के नुकसान रैखिक पुनरावृत्ति के समान हैं। तार्किक कार्य वर्गीकरण समस्या के लिए बहुत अच्छे हैं क्योंकि यह थ्रेशोल्ड प्रभाव को पेश करता है।

दूसरा, पेड़ मॉडल एल्गोरिदम

  • 1. निर्णय का पेड़

    निर्णय वृक्ष निर्णय के प्रत्येक संभावित परिणाम का चित्रण है जो शाखा पद्धति का उपयोग करके दिखाया गया है। उदाहरण के लिए, आप एक सलाद के लिए आदेश देने का निर्णय लेते हैं, और आपका पहला निर्णय शायद कच्चे सब्जियों की किस्म है, फिर पकवान, फिर सलाद की किस्म। हम एक निर्णय वृक्ष में सभी संभावित परिणामों को दर्शा सकते हैं।

    निर्णय वृक्ष को प्रशिक्षित करने के लिए, हमें प्रशिक्षण डेटासेट का उपयोग करने की आवश्यकता होती है और यह पता लगाना होता है कि लक्ष्य के लिए कौन सा गुण सबसे उपयोगी है। उदाहरण के लिए, धोखाधड़ी के परीक्षण के उपयोग के उदाहरण में, हम पा सकते हैं कि देश धोखाधड़ी के जोखिम की भविष्यवाणी करने के लिए सबसे अधिक प्रभावशाली गुण है। पहली विशेषता के साथ शाखा के बाद, हमें दो उपसमूह मिलते हैं, जो सबसे सटीक भविष्यवाणी करते हैं यदि हम केवल पहली विशेषता को जानते हैं। फिर हम दूसरी सबसे अच्छी विशेषता का पता लगाते हैं जो इन दो उपसमूहों के लिए शाखा का उपयोग कर सकती है, फिर से विभाजित करें, और इतने पर, जब तक कि पर्याप्त गुण लक्ष्य की जरूरतों को पूरा नहीं करते हैं।

  • 2. यादृच्छिक वन

यादृच्छिक वन कई निर्णय वृक्षों का औसत है, जिनमें से प्रत्येक निर्णय वृक्ष को यादृच्छिक डेटा नमूने के साथ प्रशिक्षित किया जाता है। यादृच्छिक वन में प्रत्येक पेड़ एक पूर्ण निर्णय वृक्ष की तुलना में कमजोर होता है, लेकिन सभी पेड़ों को एक साथ रखते हुए, हम विविधता के फायदे के कारण बेहतर समग्र प्रदर्शन प्राप्त कर सकते हैं।

यादृच्छिक वन आज मशीन सीखने में एक बहुत लोकप्रिय एल्गोरिथ्म है. यादृच्छिक वन को प्रशिक्षित करना आसान है, और यह काफी अच्छा प्रदर्शन करता है. इसका नुकसान यह है कि यादृच्छिक वन अन्य एल्गोरिथ्म की तुलना में अनुमानों को आउटपुट करने में धीमा हो सकता है, इसलिए जब तेजी से भविष्यवाणी की आवश्यकता होती है, तो यादृच्छिक वन का चयन नहीं किया जा सकता है।

  • 3। चढ़ाव

    ग्रेडिएंट बूस्टिंग, जैसे कि रैंडम फॉरेस्ट, कमजोरी वाले निर्णय लेने वाले पेड़ों से बना होता है। ग्रेडिएंट बूस्टिंग का सबसे बड़ा अंतर यह है कि ग्रेडिएंट बूस्टिंग में, पेड़ों को एक-एक करके प्रशिक्षित किया जाता है। प्रत्येक पीछे के पेड़ को मुख्य रूप से सामने के पेड़ द्वारा गलत डेटा की पहचान करने के लिए प्रशिक्षित किया जाता है। इससे ग्रेडिएंट बूस्टिंग आसानी से अनुमानित स्थितियों पर अधिक ध्यान केंद्रित करती है और कम कठिन स्थितियों पर अधिक ध्यान केंद्रित करती है।

    ग्रेडिएंट अप करने का प्रशिक्षण भी तेज़ है और बहुत अच्छा प्रदर्शन करता है। हालांकि, प्रशिक्षण डेटासेट में छोटे बदलाव मॉडल में मौलिक परिवर्तन कर सकते हैं, इसलिए इसका परिणाम सबसे व्यवहार्य नहीं हो सकता है।

3. तंत्रिका नेटवर्क एल्गोरिदमः तंत्रिका नेटवर्क एक जैविक घटना है जिसमें तंत्रिकाओं को आपस में जुड़े हुए तंत्रिकाओं से मिलकर मस्तिष्क में एक दूसरे के साथ सूचनाओं का आदान-प्रदान करना होता है। यह विचार अब मशीन सीखने के क्षेत्र में लागू किया गया है और इसे एएनएन कहा जाता है। डीप लर्निंग कई परतों वाले तंत्रिका नेटवर्क हैं। एएनएन मॉडल की एक श्रृंखला है जो सीखने के माध्यम से मानव मस्तिष्क के समान संज्ञानात्मक क्षमताओं को प्राप्त करती है। तंत्रिका नेटवर्क बहुत जटिल कार्यों को संभालते समय अच्छा प्रदर्शन करते हैं, जैसे कि छवि पहचान। लेकिन, मानव मस्तिष्क की तरह, मॉडल को प्रशिक्षित करना बहुत समय लेने वाला है और बहुत अधिक ऊर्जा की आवश्यकता होती है।

बड़े डेटा प्लेट से पुनर्प्रकाशित


अधिक