এসভিএম ভেক্টর মেশিনের সাহায্যে কি গরগাঁয়ের উপর দিয়ে দৌড়ানো সম্ভব?

লেখক:ছোট্ট স্বপ্ন, তৈরিঃ ২০১৬-১১-০১ 11:51:41, আপডেটঃ ২০১৬-১১-০১ 11:53:28

এসভিএম ভেক্টর মেশিনের সাহায্যে কি গরগাঁয়ের উপর দিয়ে দৌড়ানো সম্ভব?

"মহোদয়-মহোদয়গণ, আপনার বাজি রাখুন। আজ, আমরা আমাদের সর্বোচ্চ চেষ্টা করব একটি অরঙ্গিসকে পরাজিত করার জন্য, যা আর্থিক জগতে সবচেয়ে ভয়ঙ্কর প্রতিদ্বন্দ্বী হিসাবে বিবেচিত হয়। আমরা চেষ্টা করব ক্রেডিট ট্রেডিংয়ের পরদিনের লাভের পূর্বাভাস দিতে। আমি আপনাকে আশ্বস্ত করতে পারি যে, এমনকি একটি র্যান্ডম বাজিকে পরাজিত করার চেষ্টা করা এবং ৫০% জয়ের সম্ভাবনা থাকা একটি কঠিন কাজ। আমরা একটি প্রস্তুত মেশিন লার্নিং অ্যালগরিদম ব্যবহার করব যা ভেক্টর শ্রেণিবদ্ধকারীকে সমর্থন করে। এসভিএম ভেক্টর মেশিনগুলি প্রত্যাবর্তন এবং শ্রেণিবদ্ধকরণের কাজগুলি সমাধানের জন্য একটি অবিশ্বাস্যভাবে শক্তিশালী পদ্ধতি।

  • SVM ভেক্টর মেশিন সমর্থন করে

এসভিএম ভেক্টর মেশিনটি এমন একটি ধারণার উপর ভিত্তি করে তৈরি করা হয়েছে যে আমরা সুপারপ্ল্যানেটগুলিকে p-dimensional বৈশিষ্ট্য স্পেসের সাথে শ্রেণিবদ্ধ করতে পারি। এসভিএম ভেক্টর মেশিনের অ্যালগরিদমগুলি একটি সুপারপ্ল্যানেট এবং একটি সনাক্তকরণ মার্জিন ব্যবহার করে শ্রেণিবদ্ধকরণের সিদ্ধান্তের সীমানা তৈরি করে, যেমন নীচের চিত্রটি।

img

সরলতম ক্ষেত্রে, রৈখিক শ্রেণিবদ্ধকরণ সম্ভব। অ্যালগরিদম সিদ্ধান্তের সীমানা বেছে নেয়, যা শ্রেণীর মধ্যে দূরত্বকে সর্বাধিক করে তোলে।

আপনি বেশিরভাগ আর্থিক সময়সূচীতে সহজ, রৈখিক বিভাজ্য সেটগুলি খুব কমই দেখেন, কিন্তু অবিভাজ্য সেটগুলি প্রায়শই দেখা যায়। এসভিএম ভেক্টর মেশিন একটি পদ্ধতি বাস্তবায়ন করে এই সমস্যাটি সমাধান করে যা নরম মার্জিন পদ্ধতি হিসাবে পরিচিত।

এই ক্ষেত্রে, কিছু ভুল শ্রেণিবিন্যাসের ক্ষেত্রে অনুমতি দেওয়া হয়, কিন্তু তারা নিজেরাই ফাংশনগুলি সম্পাদন করে, যাতে C (যেখানে খরচ বা বাজেটের ভুলগুলি অনুমোদিত হতে পারে) এর সাথে অনুপাতের কারণ এবং ত্রুটিগুলি সীমানা পর্যন্ত দূরত্বকে সর্বনিম্ন করে।

img

মূলত, মেশিনটি শ্রেণিবদ্ধকরণের মধ্যে ব্যবধানকে সর্বাধিক করে তুলবে এবং একই সাথে তার C দ্বারা ওজনযুক্ত শাস্তি আইটেমগুলিকে হ্রাস করবে।

এসভিএম শ্রেণীবিভাগের একটি চমৎকার বৈশিষ্ট্য হল যে শ্রেণীবিভাগের সিদ্ধান্তের সীমানার অবস্থান এবং আকার কেবলমাত্র কিছু তথ্য দ্বারা নির্ধারিত হয়, যা সিদ্ধান্তের সীমানার কাছাকাছি। এই অ্যালগরিদমের বৈশিষ্ট্যগুলি এটিকে বিরক্তিকর মানগুলির বিরোধিতা করতে সক্ষম করে যা দূরবর্তী ব্যবধানে রয়েছে। উদাহরণস্বরূপ, উপরের চিত্রের ডানদিকে নীল বিন্দুটি সিদ্ধান্তের সীমানার উপর খুব সামান্য প্রভাব ফেলে।

আমার মনে হয় মজাটা এখনই শুরু হয়েছে।

নিম্নলিখিত পরিস্থিতি বিবেচনা করুন (লাল বিন্দুগুলিকে অন্যান্য রঙের বিন্দু থেকে আলাদা করুন):

img

মানুষের দৃষ্টিতে, এটিকে শ্রেণিবদ্ধ করা খুব সহজ ((একটি ঘূর্ণায়মান রেখা হতে পারে) ؛ কিন্তু মেশিনের জন্য এটি ভিন্ন। স্পষ্টতই, এটিকে একটি সরলরেখায় তৈরি করা যায় না ((একটি সরলরেখা লাল বিন্দুগুলিকে আলাদা করতে পারে না) । এখানে আমরা কার্নেল কৌশলটি চেষ্টা করতে পারি।

নিউক্লিয়ার কৌশল একটি খুব বুদ্ধিমান গণিতের কৌশল যা আমাদেরকে উচ্চ মাত্রার স্পেসে রৈখিক শ্রেণিবিন্যাসের সমস্যা সমাধান করতে সক্ষম করে। এখন আসুন এটি কীভাবে করা হয় তা দেখি।

আমরা দুই-মাত্রিক বৈশিষ্ট্য স্থানকে তিন-মাত্রিক রূপান্তর করব এবং শ্রেণিবদ্ধকরণ সম্পন্ন করার পরে দুই-মাত্রিক ফিরে আসব।

নীচে একটি চিত্র দেওয়া হল, যা একটি উচ্চ মাত্রার ম্যাপিং এবং শ্রেণিবদ্ধকরণ সম্পন্ন করার পরে প্রদর্শিত হয়েছেঃ

img

সাধারণভাবে, যদি d ইনপুট থাকে, তাহলে আপনি d-dimensional ইনপুট স্পেস থেকে p-dimensional বৈশিষ্ট্য স্পেসে একটি ম্যাপ ব্যবহার করতে পারেন। উপরে উল্লিখিত সংক্ষিপ্তকরণ অ্যালগরিদম চালানো সমাধানটি তৈরি করবে এবং তারপরে আপনার মূল ইনপুট স্পেসের p-dimensional সুপারপ্লেনকে ম্যাপ করবে।

উপরের গাণিতিক সমাধানের একটি গুরুত্বপূর্ণ পূর্বশর্ত হ'ল এটি বৈশিষ্ট্য স্পেসে একটি ভাল বিন্দু নমুনা সেট তৈরির উপর নির্ভর করে।

সীমান্ত অপ্টিমাইজেশান সম্পাদন করার জন্য আপনার কেবলমাত্র এই পয়েন্টের নমুনা সেটগুলির প্রয়োজন, ম্যাপিংয়ের জন্য স্পষ্টতার প্রয়োজন নেই, এবং উচ্চ-মাত্রার বৈশিষ্ট্যযুক্ত স্থানের ইনপুট স্পেসের পয়েন্টগুলি নিউক্লিয়ার ফাংশন ((এবং এক বিট মার্সার থিওরির সাহায্যে) নিরাপদে গণনা করা যেতে পারে।

উদাহরণস্বরূপ, আপনি যদি একটি সুপার-বৃহত্তর বৈশিষ্ট্য স্পেসে আপনার শ্রেণিবদ্ধকরণ সমস্যাটি সমাধান করতে চান, ধরুন এটি 100,000 ডিমি। আপনি কি আপনার প্রয়োজনীয় গণনার ক্ষমতা কল্পনা করতে পারেন? আমি খুব সন্দেহ করি যে আপনি এটি সম্পন্ন করতে পারবেন কিনা। ঠিক আছে, কোর এখন আপনাকে এই বিন্দু নমুনাগুলি গণনা করতে দেয়, সুতরাং এই প্রান্তটি আপনার কম ঘনত্বের আরামদায়ক ইনপুট স্পেস থেকে এসেছে।

  • চ্যালেঞ্জ এবং গরগাঁও

এখন আমরা জেফকে পরাজিত করার ভবিষ্যদ্বাণী করার চ্যালেঞ্জের মুখোমুখি হতে প্রস্তুত।

জেফ হলেন মুদ্রা বাজারের বিশেষজ্ঞ, যিনি র্যান্ডম বেটিংয়ের মাধ্যমে 50% পূর্বাভাসের সঠিকতা অর্জন করতে সক্ষম হন, যা পরবর্তী ট্রেডিং দিবসের ফলন পূর্বাভাসের সংকেত।

আমরা বিভিন্ন মৌলিক সময়সূচির ব্যবহার করব, যার মধ্যে একটি হট প্রাইস সময়সূচী রয়েছে, যার প্রতিটি সময়সূচীতে মোট ১০ লেগস পর্যন্ত আয় রয়েছে, মোট ৫৫ টি বৈশিষ্ট্য।

আমরা যে এসভিএম ভেক্টর মেশিনটি তৈরি করতে যাচ্ছি তা হ'ল 3-ডিগ্রি কোর ব্যবহার করা। আপনি ভাবতে পারেন যে একটি উপযুক্ত কোর নির্বাচন করা অন্য একটি খুব কঠিন কাজ, কারণ C এবং Γ প্যারামিটারগুলিকে ক্যালিব্রেট করার জন্য, সম্ভাব্য প্যারামিটার সমন্বয়গুলির গ্রিডে 3 গুণ ক্রস-ভেরিফিকেশন চলছে এবং সেরা সেটটি বেছে নেওয়া হবে।

তবে, এর ফলাফল খুব একটা আশাব্যঞ্জক নয়ঃ

img

আমরা দেখতে পাচ্ছি যে লিনিয়ার রিগ্রেশন বা এসভিএম ভেক্টর উভয়ই জেফকে পরাজিত করতে পারে। যদিও ফলাফলগুলি আশাবাদী নয়, আমরা ডেটা থেকে কিছু তথ্যও বের করতে পারি, যা ইতিমধ্যে ভাল খবর, কারণ ডেটাশাস্ত্রে, আর্থিক সময় সিরিজের দৈনিক লাভগুলি সবচেয়ে দরকারী নয়।

ক্রস-ভ্যালিডেশনের পরে, ডেটাসেটটি প্রশিক্ষণ দেওয়া হবে এবং পরীক্ষা করা হবে, আমরা প্রশিক্ষিত এসভিএমের ভবিষ্যদ্বাণী করার ক্ষমতা রেকর্ড করেছি, এবং একটি স্থিতিশীল পারফরম্যান্সের জন্য, আমরা প্রতিটি মুদ্রার জন্য 1000 বার এলোমেলোভাবে বিভক্ত করেছি।

img

এটি দেখায় যে, কিছু ক্ষেত্রে এসভিএম সহজ লিনিয়ার রিগ্রোডনের চেয়ে ভাল, কিন্তু পারফরম্যান্সের পার্থক্যও কিছুটা বেশি। ডলারের তুলনায় ইয়েনের তুলনায়, আমরা গড়ভাবে পূর্বাভাস দিতে পারি 54% সিগন্যাল। এটি বেশ ভাল ফলাফল, তবে আসুন আরও ঘনিষ্ঠভাবে দেখুন!

টেড জেফের চাচাতো ভাই, এবং অবশ্যই এটিও একটি গরগাঁও, তবে এটি জেফের চেয়ে বেশি বুদ্ধিমান। টেড এলোমেলোভাবে বাজি ধরার পরিবর্তে প্রশিক্ষণ নমুনা সেটগুলিতে নজর রাখে। তিনি সর্বদা প্রশিক্ষণ সেটের সর্বাধিক সাধারণ আউটপুট থেকে বাজি সংকেত দেয়। আসুন এখন বুদ্ধিমান টেডকে বেঞ্চমার্ক হিসাবে ব্যবহার করিঃ

img

যেমনটি আমরা দেখেছি, বেশিরভাগ এসভিএম এর পারফরম্যান্সটি কেবলমাত্র এই সত্য থেকে আসে যে মেশিন লার্নিং থেকে শ্রেণিবদ্ধকরণ পূর্ববর্তীগুলির তুলনায় অসম্ভব। প্রকৃতপক্ষে, রৈখিক রিগ্রেশন বৈশিষ্ট্য স্থান থেকে কোনও তথ্য অর্জন করতে পারে না, তবে ইন্টারসেপ্ট রিগ্রেশনে অর্থপূর্ণ, এবং এটি এই সত্যের সাথে সম্পর্কিত যে একটি শ্রেণিবদ্ধকরণ আরও ভালভাবে সম্পাদন করে।

একটি সামান্য ভাল খবর হল যে এসভিএম ভেক্টরগুলি ডেটা থেকে কিছু অতিরিক্ত অ-রৈখিক তথ্য পেতে সক্ষম হয়েছে, যা আমাদের পূর্বাভাসের সঠিকতা 2% নির্দেশ করে।

দুর্ভাগ্যবশত, আমরা এখনও জানি না যে এটি কি ধরনের তথ্য হতে পারে, যেমন এসভিএম ভেক্টর মেশিনের নিজস্ব প্রধান অসুবিধা রয়েছে, যা আমরা স্পষ্টভাবে ব্যাখ্যা করতে পারি না।

লেখকঃ পি. লোপেজ, প্রকাশিত হয়েছে ক্যান্টারডেরে উইকিমিডিয়া পাবলিক থেকে পুনর্নির্দেশিতimg


আরো

গোল্ডেন৯৯৬৬অত্যাচারী