क्या आप एसवीएम वेक्टर मशीन (ट्रेडिंग) के साथ गोरिल्ला को पार कर सकते हैं?

लेखक:छोटे सपने, बनाया गयाः 2016-11-01 11:51:41, अद्यतन किया गयाः 2016-11-01 11:53:28

क्या आप एसवीएम वेक्टर मशीन (ट्रेडिंग) के साथ गोरिल्ला को पार कर सकते हैं?

महिलाओं और सज्जनों, अपने दांव लगाओ. आज हम एक ऑरेंज को हराने के लिए अपना सर्वश्रेष्ठ प्रयास करेंगे, जिसे वित्तीय दुनिया में सबसे भयानक प्रतिद्वंद्वियों में से एक माना जाता है। हम कोशिश कर रहे हैं कि हम अगले दिन की कमाई का अनुमान लगा सकें। मैं आपको विश्वास दिलाता हूं कि एक ऑरेंज को हराने के लिए 50% जीतने की संभावना है। हम एक तैयार मशीन सीखने वाले एल्गोरिथ्म का उपयोग करेंगे जो वेक्टर वर्गीकरण का समर्थन करता है। एसवीएम वेक्टर मशीन प्रतिगमन और वर्गीकरण कार्यों को हल करने के लिए एक अविश्वसनीय रूप से शक्तिशाली तरीका है।

  • SVM वेक्टर मशीन का समर्थन करता है

एसवीएम वेक्टर मशीन इस विचार पर आधारित है कि हम एक सुपरप्लेन के खिलाफ एक p-dimensional विशेषता स्थान का उपयोग करके वर्गीकरण कर सकते हैं। एसवीएम वेक्टर मशीन एल्गोरिदम एक सुपरप्लेन और एक पहचान मार्जिन का उपयोग करके वर्गीकरण निर्णय सीमाओं का निर्माण करता है, जैसा कि नीचे चित्रित है।

img

सबसे सरल मामलों में, रैखिक वर्गीकरण संभव है. एल्गोरिथ्म निर्णय सीमा का चयन करता है, जो वर्गों के बीच की दूरी को अधिकतम कर सकता है.

अधिकांश वित्तीय समय अनुक्रमों में, आपको सरल, रैखिक रूप से अलग करने योग्य सेटों का सामना करना पड़ सकता है, लेकिन असतत स्थितियों का सामना करना पड़ सकता है। एसवीएम वेक्टर मशीन ने इस समस्या को एक विधि को लागू करके हल किया है जिसे सॉफ्ट मार्जिन विधि कहा जाता है।

इस मामले में, कुछ गलत वर्गीकरण की स्थिति की अनुमति है, लेकिन वे अपने आप में कार्य करते हैं, ताकि C (जिसकी लागत या बजट में त्रुटि की अनुमति दी जा सकती है) के साथ सापेक्ष कारक और सीमा तक त्रुटि की दूरी को कम से कम किया जा सके।

img

मूल रूप से, मशीनें वर्गीकरण के बीच के अंतराल को अधिकतम करती हैं, जबकि C-भारित दंड वस्तुओं को कम करती हैं।

एसवीएम वर्गीकरण का एक शानदार विशेषता यह है कि वर्गीकृत निर्णय सीमाओं का स्थान और आकार केवल कुछ डेटा द्वारा निर्धारित किया जाता है, अर्थात् निर्णय सीमाओं से निकटतम डेटा। इस एल्गोरिथ्म की विशेषता यह है कि यह दूर के अंतराल पर असामान्य मानों के विघटन का सामना करने में सक्षम है। उदाहरण के लिए, ऊपर दिए गए चित्र में, सबसे दाईं ओर नीले बिंदु, निर्णय सीमाओं पर बहुत कम प्रभाव डालते हैं।

क्या यह बहुत जटिल है? ठीक है, मुझे लगता है कि मज़ा अभी शुरू हो रहा है।

उदाहरण के लिए, यदि आप लाल रंग के बिंदुओं को अलग करते हैं, तो निम्न स्थितियों पर विचार करेंः

img

मनुष्य के लिए, यह वर्गीकृत करना बहुत सरल है (एक घन रेखा भी) । लेकिन मशीन के लिए यह अलग है। जाहिर है, यह एक सीधी रेखा नहीं बन सकती है (एक सीधी रेखा लाल बिंदुओं को अलग नहीं कर सकती है) । यहां हम एक कर्नेल चाल का प्रयास कर सकते हैं।

Kernel Technique एक बहुत ही स्मार्ट गणित तकनीक है जो हमें उच्च आयामी स्थान में linear classification problem हल करने में सक्षम बनाती है। अब हम देखते हैं कि यह कैसे किया जाता है।

हम दो-आयामी विशेषता स्थान को तीन-आयामी में परिवर्तित करते हैं और वर्गीकरण पूरा करने के बाद दो-आयामी में लौटते हैं।

नीचे दिए गए चित्रों में, क्रमशः ऊंचाइयों का मानचित्रण और वर्गीकरण पूरा होने के बादः

img

आम तौर पर, यदि d इनपुट है, तो आप d आयामी इनपुट स्पेस से p आयामी विशेषता स्पेस में एक मैपिंग का उपयोग कर सकते हैं. उपरोक्त न्यूनतमकरण एल्गोरिथ्म को चलाने से समाधान उत्पन्न होगा, और फिर अपने मूल इनपुट स्पेस के p आयामी सुपरप्लेन को वापस मैप करें.

उपरोक्त गणितीय समाधान की महत्वपूर्ण शर्त यह है कि यह विशेषता स्थान में एक अच्छा बिंदु नमूना सेट उत्पन्न करने पर निर्भर करता है।

आपको सीमा अनुकूलन करने के लिए केवल इन बिंदुओं के नमूना सेट की आवश्यकता होती है, मैपिंग को स्पष्ट होने की आवश्यकता नहीं होती है, और इनपुट स्पेस के बिंदुओं को उच्च आयामी विशेषता स्पेस में नाभिक फ़ंक्शन ((और एक बिट मर्सर प्रमेय की मदद से) सुरक्षित रूप से गणना की जा सकती है।

उदाहरण के लिए, आप एक सुपर-बड़ी विशेषता अंतरिक्ष में अपने वर्गीकरण समस्या को हल करना चाहते हैं, मान लीजिए कि यह 100,000 आयाम है। क्या आप कल्पना कर सकते हैं कि आपको क्या गणना करने की आवश्यकता है? मैं इस बात पर बहुत संदेह करता हूं कि आप इसे पूरा कर सकते हैं। ठीक है, कोर अब आपको इन बिंदु नमूनों को गणना करने देता है, इसलिए यह किनारा आपके आरामदायक इनपुट स्पेस से आता है।

  • चुनौती और गोरिल्ला

अब हम जेफ को हराने की भविष्यवाणी करने की चुनौती का सामना करने के लिए तैयार हैं।

जेफ एक मुद्रा बाजार के विशेषज्ञ हैं, जो अगले ट्रेडिंग दिन की आय का संकेत देने के लिए 50 प्रतिशत सटीकता के साथ बेतरतीब तरीके से दांव लगा सकते हैं।

हम विभिन्न बुनियादी समय क्रम का उपयोग करेंगे, जिसमें वर्तमान मूल्य समय क्रम शामिल है, जिसमें से प्रत्येक समय क्रम में कुल 55 सुविधाओं के लिए 10 लेग्स तक का लाभ होगा।

हम जो एसवीएम वेक्टर मशीन बनाने जा रहे हैं, वह 3 डिग्री के कोर का उपयोग करती है। आप सोच सकते हैं कि एक उपयुक्त कोर का चयन करना एक और बहुत कठिन कार्य है, और 3 गुना क्रॉस-प्रमाणन संभव पैरामीटर संयोजनों के ग्रिड पर चल रहा है, ताकि सी और जी पैरामीटर को मान्य किया जा सके, और सबसे अच्छा सेट चुना जाएगा।

इस तरह के लोगों के लिए, यह बहुत अच्छा नहीं है।

img

हम देख सकते हैं कि दोनों रैखिक प्रतिगमन और एसवीएम वेक्टर जेफ को हरा सकते हैं। हालांकि परिणाम आशाजनक नहीं हैं, हम डेटा से कुछ जानकारी भी निकाल सकते हैं, जो पहले से ही अच्छी खबर है, क्योंकि डेटा विज्ञान में, वित्तीय समय अनुक्रमों के दैनिक लाभ सबसे उपयोगी नहीं हैं।

क्रॉस-प्रूफिंग के बाद, डेटासेट को प्रशिक्षित और परीक्षण किया जाएगा, और हमने प्रशिक्षित एसवीएम की भविष्यवाणी करने की क्षमता दर्ज की, और एक स्थिर प्रदर्शन के लिए, हमने प्रत्येक मुद्रा के लिए 1000 बार यादृच्छिक विभाजन दोहराया।

img

इस प्रकार, कुछ मामलों में, एसवीएम सरल रैखिक प्रतिगमन से बेहतर है, लेकिन प्रदर्शन में थोड़ा अंतर भी है। डॉलर और येन में, उदाहरण के लिए, हम औसत पर अनुमानित संकेतों का 54% हिस्सा बनाते हैं। यह काफी अच्छा परिणाम है, लेकिन आइए अधिक बारीकी से देखें!

टेड जेफ का चचेरा भाई है, और यह निश्चित रूप से एक गोरिल्ला है, लेकिन यह जेफ से अधिक बुद्धिमान है। टेड ने प्रशिक्षण नमूना सेट पर ध्यान दिया, न कि यादृच्छिक दांव पर। वह हमेशा प्रशिक्षण सेट के सबसे आम आउटपुट से संकेत देता है। चलो अब स्मार्ट टेड के साथ एक संदर्भ के रूप मेंः

img

जैसा कि हम देख सकते हैं, अधिकांश एसवीएम का प्रदर्शन केवल इस तथ्य से आता है कि मशीन सीखने से वर्गीकरण पहले के समान होने की संभावना नहीं है। वास्तव में, रैखिक पुनरावृत्ति विशेषता अंतरिक्ष से कोई जानकारी प्राप्त नहीं कर सकती है, लेकिन पुनरावृत्ति में इंटरसेप्ट का अर्थ है, और यह तथ्य है कि एक वर्गीकरण के लिए अधिक से अधिक प्रदर्शन करने के लिए इंटरसेप्ट और रिलेटेड है।

थोड़ा बेहतर खबर यह है कि एसवीएम वेक्टर डेटा से कुछ अतिरिक्त गैर-रैखिक जानकारी प्राप्त करने में सक्षम है, जो हमें भविष्यवाणियों की सटीकता का 2% सुझाव देता है।

दुर्भाग्य से, हम अभी तक यह नहीं जानते कि यह किस तरह की जानकारी हो सकती है, जैसे कि एसवीएम वेक्टर मशीन का अपना मुख्य नुकसान है, जिसे हम स्पष्ट रूप से नहीं बता सकते हैं।

लेखक: पी. लोपेज़, क्वांटडारे पर प्रकाशित WeChat के सार्वजनिक नंबर से पुनर्प्रकाशितimg


अधिक

गोल्डन9966क्रूर