Type/to search
8
Follow
1364
Followers
मशीन लर्निंग एल्गोरिदम की एक यात्रा
Quantpedia
Created 2017-02-25 09:37:02  
 0
 3288

मशीन लर्निंग एल्गोरिदम की एक यात्रा

मशीन सीखने की समस्या को समझने के बाद, हम सोच सकते हैं कि हमें क्या डेटा इकट्ठा करने की आवश्यकता है और हम किस तरह के एल्गोरिदम का उपयोग कर सकते हैं। इस लेख में हम सबसे लोकप्रिय मशीन सीखने के एल्गोरिदम के बारे में बात करेंगे और यह देखने में मदद करेंगे कि कौन से तरीके काम कर सकते हैं।
मशीन सीखने के क्षेत्र में कई एल्गोरिदम हैं, और प्रत्येक एल्गोरिथ्म के लिए कई एक्सटेंशन हैं, इसलिए किसी विशेष समस्या के लिए सही एल्गोरिथ्म का निर्धारण करना बहुत मुश्किल है। इस लेख में मैं आपको वास्तविक दुनिया में आने वाले एल्गोरिथ्म को शामिल करने के लिए दो तरीकों के बारे में बताऊंगा।

  • सीखने का तरीका

    एल्गोरिदम को विभिन्न प्रकारों में वर्गीकृत किया जाता है, जो कि अनुभव, वातावरण या किसी भी डेटा को हम इनपुट कहते हैं, के अनुसार हैं। मशीन सीखने और कृत्रिम बुद्धिमत्ता की पाठ्यपुस्तकों में, आमतौर पर यह माना जाता है कि एल्गोरिदम किस प्रकार सीख सकते हैं।

    यहां केवल कुछ प्रमुख शैलियों या सीखने के मॉडल पर चर्चा की गई है, और कुछ बुनियादी उदाहरण दिए गए हैं। यह वर्गीकरण या संगठन का तरीका अच्छा है क्योंकि यह आपको इनपुट डेटा की भूमिका और मॉडल तैयार करने की प्रक्रिया के बारे में सोचने के लिए मजबूर करता है, और फिर एक एल्गोरिथ्म चुनता है जो आपके लिए सबसे उपयुक्त है ताकि आप सबसे अच्छा परिणाम प्राप्त कर सकें।

    पर्यवेक्षित सीखनाः इनपुट डेटा को प्रशिक्षण डेटा कहा जाता है और इसका परिणाम ज्ञात होता है या इसे चिह्नित किया जाता है। उदाहरण के लिए, यह कहना कि क्या एक ईमेल स्पैम है, या एक निश्चित समय के लिए शेयर की कीमत। मॉडल भविष्यवाणी करता है और यदि गलत है तो इसे सही किया जाता है, और यह प्रक्रिया तब तक जारी रहती है जब तक कि यह प्रशिक्षण डेटा के लिए कुछ सही मानदंडों को पूरा नहीं करता है। समस्या उदाहरणों में वर्गीकरण और वापसी समस्याएं शामिल हैं, और एल्गोरिथ्म उदाहरणों में लॉजिकल रिग्रेशन और रिवर्स न्यूरल नेटवर्क शामिल हैं।
    अनियंत्रित सीखनाः इनपुट डेटा को चिह्नित नहीं किया जाता है और कोई निश्चित परिणाम नहीं होता है। मॉडल डेटा की संरचना और संख्यात्मक मानों को शामिल करता है। समस्या के उदाहरणों में एसोसिएशन नियम सीखने और क्लैशिंग समस्याएं शामिल हैं, एल्गोरिदम के उदाहरणों में एप्रियोरी एल्गोरिदम और के-औसत एल्गोरिदम शामिल हैं।
    अर्ध-निरीक्षित सीखनाः इनपुट डेटा चिह्नित और अनचिह्नित डेटा का मिश्रण है, कुछ भविष्यवाणी की समस्याएं हैं लेकिन मॉडल को डेटा की संरचना और संरचना भी सीखनी होगी। समस्या के उदाहरणों में वर्गीकरण और प्रतिगमन समस्याएं शामिल हैं, एल्गोरिथ्म के उदाहरण मूल रूप से अनियंत्रित सीखने वाले एल्गोरिदम का विस्तार हैं।
    संवर्धित सीखनाः इनपुट डेटा मॉडल को उत्तेजित कर सकता है और मॉडल को प्रतिक्रिया दे सकता है। प्रतिक्रिया न केवल पर्यवेक्षित सीखने की सीखने की प्रक्रिया से प्राप्त की जाती है, बल्कि पर्यावरण में पुरस्कार या दंड से भी प्राप्त की जाती है। समस्या उदाहरण रोबोट नियंत्रण हैं, एल्गोरिथ्म के उदाहरणों में क्यू-लर्निंग और अस्थायी अंतर सीखने शामिल हैं।

    जब डेटा सिमुलेशन व्यवसाय निर्णयों को एकीकृत किया जाता है, तो अधिकांश लोग पर्यवेक्षित और अनियंत्रित सीखने के तरीकों का उपयोग करते हैं। अगला गर्म विषय अर्ध-पर्यवेक्षित सीखने है, उदाहरण के लिए छवि वर्गीकरण समस्या, जिसमें एक बड़ा डेटाबेस है, लेकिन केवल एक छोटी संख्या में चित्रों को चिह्नित किया गया है। उन्नत सीखने का उपयोग ज्यादातर रोबोट नियंत्रण और अन्य नियंत्रण प्रणालियों के विकास में किया जाता है।

  • एल्गोरिथ्म समानता

    एल्गोरिदम को मुख्य रूप से कार्यात्मक या औपचारिक रूप से वर्गीकृत किया जाता है। उदाहरण के लिए, पेड़-आधारित एल्गोरिदम, तंत्रिका नेटवर्क एल्गोरिदम। यह एक उपयोगी वर्गीकरण है, लेकिन यह सही नहीं है। क्योंकि कई एल्गोरिदम को आसानी से दो श्रेणियों में विभाजित किया जा सकता है, जैसे कि लर्निंग वेक्टर क्वांटिज़ेशन, जो कि तंत्रिका नेटवर्क प्रकार के एल्गोरिदम और उदाहरण-आधारित विधि दोनों हैं। जैसे कि मशीन लर्निंग एल्गोरिदम के पास एक आदर्श मॉडल नहीं है, एल्गोरिदम के वर्गीकरण के तरीके भी सही नहीं हैं।

    इस भाग में मैंने वर्गीकरण के लिए एल्गोरिदम को सूचीबद्ध किया है जो मुझे लगता है कि सबसे सहज तरीके हैं। मैं एल्गोरिदम या वर्गीकरण के तरीकों को समाप्त नहीं कर रहा हूं, लेकिन मुझे लगता है कि यह पाठकों को एक सामान्य ज्ञान देने में मददगार होगा। यदि आप जानते हैं कि मैंने क्या सूचीबद्ध नहीं किया है, तो टिप्पणी करने के लिए स्वतंत्र महसूस करें। अब हम शुरू करते हैं!

  • Regression

    Regression (वापसी विश्लेषण) चरों के बीच संबंधों के बारे में है। यह सांख्यिकीय तरीकों का उपयोग करता है। इसके कुछ उदाहरणों में शामिल हैंः

    Ordinary Least Squares
    Logistic Regression
    Stepwise Regression
    Multivariate Adaptive Regression Splines (MARS)
    Locally Estimated Scatterplot Smoothing (LOESS)

  • Instance-based Methods

    उदाहरण-आधारित सीखना एक निर्णय लेने की समस्या का अनुकरण करता है, उदाहरण या उदाहरण का उपयोग मॉडल के लिए बहुत महत्वपूर्ण है। यह विधि मौजूदा डेटा के लिए एक डेटाबेस बनाती है और फिर नए डेटा को जोड़ती है, फिर एक समानता माप विधि का उपयोग करती है ताकि डेटाबेस में एक इष्टतम मिलान पाया जा सके, एक भविष्यवाणी की जा सके। इस कारण से, इस विधि को विजेता के रूप में भी जाना जाता है।

    k-Nearest Neighbour (kNN)
    Learning Vector Quantization (LVQ)
    Self-Organizing Map (SOM)

  • Regularization Methods

    यह अन्य विधियों का एक विस्तार है (आमतौर पर एक रिग्रेशन विधि), जो कि सरल मॉडल के लिए अधिक अनुकूल है और अधिक अच्छा है। मैं इसे यहां सूचीबद्ध करता हूं क्योंकि यह लोकप्रिय और शक्तिशाली है।

    Ridge Regression
    Least Absolute Shrinkage and Selection Operator (LASSO)
    Elastic Net

  • Decision Tree Learning

    Decision tree methods (निर्णय वृक्ष विधियाँ) एक मॉडल बनाते हैं जो डेटा में वास्तविक मानों के आधार पर निर्णय लेता है। निर्णय वृक्षों का उपयोग समावेशन और रिटर्न समस्याओं को हल करने के लिए किया जाता है।

    Classification and Regression Tree (CART)
    Iterative Dichotomiser 3 (ID3)
    C4.5
    Chi-squared Automatic Interaction Detection (CHAID)
    Decision Stump
    Random Forest
    Multivariate Adaptive Regression Splines (MARS)
    Gradient Boosting Machines (GBM)

  • Bayesian

    Bayesian method वर्गीकरण और प्रतिगमन की समस्याओं को हल करने के लिए Bayesian विधि का प्रयोग किया जाता है।

    Naive Bayes
    Averaged One-Dependence Estimators (AODE)
    Bayesian Belief Network (BBN)

  • Kernel Methods

    Kernel Method में से सबसे प्रसिद्ध Support Vector Machines है। यह विधि इनपुट डेटा को उच्च आयामों पर मैप करती है, कुछ वर्गीकरण और प्रतिगमन समस्याओं को मॉडलिंग करना आसान है।

    Support Vector Machines (SVM)
    Radial Basis Function (RBF)
    Linear Discriminate Analysis (LDA)

  • Clustering Methods

    Clustering, अपने आप में एक समस्या और एक विधि है। Clustering के तरीकों को आमतौर पर मॉडलिंग विधियों द्वारा वर्गीकृत किया जाता है। सभी clustering विधियों को डेटा को एक समान डेटा संरचना के साथ व्यवस्थित किया जाता है ताकि प्रत्येक समूह में अधिकतम समानता हो।

    K-Means
    Expectation Maximisation (EM)

  • Association Rule Learning

    एसोसिएशन नियम सीखना (Association rule learning) डेटा के बीच नियमों को निकालने का एक तरीका है, जिसके माध्यम से विशाल बहुआयामी स्थानिक डेटा के बीच संबंध पाए जा सकते हैं, और ये महत्वपूर्ण संबंध संगठन द्वारा उपयोग किए जा सकते हैं।

    Apriori algorithm
    Eclat algorithm

  • Artificial Neural Networks

    आर्टिफिशियल न्यूरल नेटवर्क्स की संरचना और कार्यशीलता जैविक न्यूरल नेटवर्क से प्रेरित है। यह एक प्रकार का पैटर्न मिलान है, जिसे अक्सर रिग्रेशन और वर्गीकरण की समस्याओं के लिए उपयोग किया जाता है, लेकिन इसमें सैकड़ों एल्गोरिदम और वेरिएंट शामिल हैं। इनमें से कुछ क्लासिक लोकप्रिय एल्गोरिदम हैं (मैं गहराई से सीखने को अलग से बताता हूं):

    Perceptron
    Back-Propagation
    Hopfield Network
    Self-Organizing Map (SOM)
    Learning Vector Quantization (LVQ)

  • Deep Learning

    डीप लर्निंग (Deep Learning) पद्धति कृत्रिम तंत्रिका नेटवर्क का एक आधुनिक अद्यतन है। इसमें पारंपरिक तंत्रिका नेटवर्क की तुलना में अधिक और अधिक जटिल नेटवर्क संरचनाएं हैं। कई विधियां अर्ध-निगरानी वाले सीखने के बारे में हैं, इस प्रकार के सीखने की समस्या में बहुत बड़ा डेटा है, लेकिन इनमें से बहुत कम डेटा को चिह्नित किया गया है।

    Restricted Boltzmann Machine (RBM)
    Deep Belief Networks (DBN)
    Convolutional Network
    Stacked Auto-encoders

  • Dimensionality Reduction

    आयामीकरण (Dimension Reduction), जैसे कि समूहकरण विधि, डेटा में एक एकीकृत संरचना का पीछा करती है और इसका उपयोग करती है, लेकिन यह कम जानकारी के साथ डेटा को संक्षेप में प्रस्तुत करती है। यह डेटा की कल्पना करने या इसे सरल बनाने के लिए उपयोगी है।

    Principal Component Analysis (PCA)
    Partial Least Squares Regression (PLS)
    Sammon Mapping
    Multidimensional Scaling (MDS)
    Projection Pursuit

  • Ensemble Methods

    Ensemble methods कई छोटे मॉडल होते हैं, जो स्वतंत्र रूप से प्रशिक्षित होते हैं, स्वतंत्र निष्कर्ष निकालते हैं, और अंत में एक समग्र भविष्यवाणी बनाते हैं। बहुत सारे शोध इस बात पर केंद्रित हैं कि कौन से मॉडल का उपयोग किया जाता है और ये मॉडल कैसे एकत्र किए जाते हैं। यह एक बहुत ही शक्तिशाली और लोकप्रिय तकनीक है।

    Boosting
    Bootstrapped Aggregation (Bagging)
    AdaBoost
    Stacked Generalization (blending)
    Gradient Boosting Machines (GBM)
    Random Forest

img

यह एक उदाहरण है जो संयोजन विधि द्वारा संकलित किया गया है (विकिपीडिया से) प्रत्येक अग्निशमन विधि को ग्रे रंग में दर्शाया गया है और अंतिम संश्लेषण का अंतिम पूर्वानुमान लाल रंग में दर्शाया गया है।

  • अन्य संसाधन

    इस मशीन लर्निंग एल्गोरिथ्म टूर का उद्देश्य आपको कुछ एल्गोरिदम और संबंधित एल्गोरिदम के कुछ टूल के बारे में जानकारी देना है।

    नीचे कुछ अन्य संसाधन दिए गए हैं, कृपया ज्यादा मत सोचो, अधिक एल्गोरिदम जानने से आपको लाभ होगा, लेकिन कुछ एल्गोरिदम के बारे में गहराई से जानना भी उपयोगी हो सकता है।

    • List of Machine Learning Algorithms: यह विकिपीडिया पर एक संसाधन है, हालांकि यह पूर्ण है, लेकिन मुझे लगता है कि वर्गीकरण बहुत अच्छा नहीं है।
    • Machine Learning Algorithms Category: यह भी विकी पर है, ऊपर की तुलना में थोड़ा बेहतर है, वर्णमाला क्रम में <unk>
    • CRAN Task View: Machine Learning & Statistical Learning: मशीन लर्निंग एल्गोरिदम के लिए R भाषा का विस्तार पैकेज, देखें कि आप दूसरों के साथ क्या कर रहे हैं।
    • Top 10 Algorithms in Data Mining: यह एक प्रकाशित लेख है, जो अब एक पुस्तक है, जिसमें सबसे लोकप्रिय डेटा खनन एल्गोरिदम शामिल हैं।

ब्लेयर कॉमन्स / डेफी पायथन डेवलपर्स द्वारा पुनः प्रकाशित

Related Recommendations
Comment
All comments (0)
No data
No data
  • 1
iPhone Download
Forums
PINE Language
© 2015 - ∞ INVENTOR PTE LTD (SG)