মেশিন লার্নিংয়ের প্রধান ৩টি শ্রেণীকরণের প্রধান ৬টি অ্যালগরিদমের সুবিধা ও অসুবিধা

লেখক:ছোট্ট স্বপ্ন, তৈরিঃ 2017-10-30 12:01:59, আপডেটঃ 2017-11-08 13:55:03

মেশিন লার্নিংয়ের প্রধান ৩টি শ্রেণীকরণের প্রধান ৬টি অ্যালগরিদমের সুবিধা ও অসুবিধা

মেশিন লার্নিং-এ, লক্ষ্য হয় পূর্বাভাস (prediction) বা ক্লাস্টারিং (clustering) । এই নিবন্ধটি পূর্বাভাসের উপর দৃষ্টি নিবদ্ধ করে। পূর্বাভাস হ'ল ইনপুট ভেরিয়েবলগুলির একটি সেট থেকে আউটপুট ভেরিয়েবলের মান পূর্বাভাস দেওয়ার প্রক্রিয়া। উদাহরণস্বরূপ, একটি সম্পৃক্ত সম্পত্তির একটি সেট পেয়ে আমরা এর বিক্রয় মূল্য পূর্বাভাস দিতে পারি। পূর্বাভাস সমস্যা দুটি প্রধান বিভাগে বিভক্ত করা যেতে পারেঃ ১. রিগ্রেসন সমস্যাঃ যেখানে পূর্বাভাস দেওয়া ভেরিয়েবলগুলি সংখ্যাগত (যেমন একটি বাড়ির দাম); ২. শ্রেণিবদ্ধকরণ সমস্যাঃ যেখানে পূর্বাভাস দেওয়া ভেরিয়েবলগুলি হয় হ্যাঁ/না উত্তর (যেমন একটি সরঞ্জাম ব্যর্থ হবে কিনা) । এটি বোঝার পর, আসুন আমরা মেশিন লার্নিং এর সবচেয়ে গুরুত্বপূর্ণ এবং সাধারণভাবে ব্যবহৃত অ্যালগরিদমগুলি দেখি। আমরা এই অ্যালগরিদমগুলিকে তিনটি শ্রেণীতে ভাগ করেছিঃ লিনিয়ার মডেল, ট্রি-ভিত্তিক মডেল এবং নিউরাল নেটওয়ার্ক।

img

প্রথমত, লিনিয়ার মডেল অ্যালগরিদমঃ লিনিয়ার মডেল একটি সহজ সূত্র ব্যবহার করে একটি সেট ডেটা পয়েন্টের মধ্য দিয়ে সবচেয়ে ভাল ফিট হওয়া পয়েন্টগুলি খুঁজে পায়। এই পদ্ধতিটি ২০০ বছরেরও বেশি সময় আগে থেকে পাওয়া যায় এবং এটি পরিসংখ্যান এবং মেশিন লার্নিং উভয় ক্ষেত্রেই ব্যাপকভাবে ব্যবহৃত হয়। এটির সরলতার কারণে এটি পরিসংখ্যানবিদদের জন্য দরকারী। আপনি যে ভেরিয়েবলটি (ভেরিয়েবলের কারণে) পূর্বাভাস দিতে চান তা ইতিমধ্যে পরিচিত ভেরিয়েবল (স্ব-ভেরিয়েবল) এর সমীকরণ হিসাবে প্রদর্শিত হয়, তাই পূর্বাভাসটি কেবল একটি ভেরিয়েবল ইনপুট করা এবং তারপরে সমীকরণের উত্তর গণনা করা একটি সমস্যা।

  • 1.线性回归

    রৈখিক প্রত্যাবর্তন, বা আরও সঠিকভাবে বলা যায়, মেশিন লার্নিং এর সর্বনিম্ন দ্বিগুণ প্রত্যাবর্তন, রৈখিক মডেলের সবচেয়ে স্ট্যান্ডার্ড ফর্ম। রেগ্রেশন সমস্যার জন্য, রৈখিক প্রত্যাবর্তন হল সবচেয়ে সহজ রৈখিক মডেল। এর অসুবিধা হল যে মডেলটি সহজেই ওভারফিট হয়, অর্থাৎ মডেলটি পুরোপুরি প্রশিক্ষিত ডেটাতে অনুকূল হয়, নতুন ডেটাতে প্রসারিত করার ক্ষমতার বিনিময়ে। সুতরাং, মেশিন লার্নিং এর রৈখিক প্রত্যাবর্তন (এবং লজিক্যাল রিগ্রেশন যা আমরা পরে আলোচনা করব) প্রায়শই রৈখিকভাবে মেশিনযুক্ত হয়, যার অর্থ মডেলটি ওভারফিট প্রতিরোধ করার জন্য একটি নির্দিষ্ট শাস্তি রয়েছে।

    লিনিয়ার মডেলগুলির আরেকটি অসুবিধা হল যেহেতু তারা খুব সহজ, তাই যখন ইনপুট ভেরিয়েবলগুলি স্বাধীন নয় তখন তারা সহজেই আরও জটিল আচরণ পূর্বাভাস দেয়।

  • 2.逻辑回归

    লজিক্যাল রিগ্রেশন হল শ্রেণীবিভাজন সমস্যার জন্য লিনিয়ার রিগ্রেশনের একটি অভিযোজন। লজিক্যাল রিগ্রেশনের অসুবিধা হল লিনিয়ার রিগ্রেশনের মতো। লজিক্যাল ফাংশন শ্রেণীবিভাজন সমস্যার জন্য খুব ভাল, কারণ এটি থ্রেশহোল্ড প্রভাব প্রবর্তন করে।

২। গাছের মডেল অ্যালগরিদম

  • ১, সিদ্ধান্তের গাছ

    সিদ্ধান্ত গাছ হল একটি শাখা পদ্ধতি ব্যবহার করে সিদ্ধান্তের প্রতিটি সম্ভাব্য ফলাফল প্রদর্শন করা। উদাহরণস্বরূপ, আপনি একটি সালাদ অর্ডার করার সিদ্ধান্ত নিয়েছেন এবং আপনার প্রথম সিদ্ধান্তটি সম্ভবত কাঁচা শাকসব্জির ধরণের, তারপরে স্বাদযুক্ত শাকসব্জি, তারপরে সালাদ পনিরগুলির ধরণের। আমরা একটি সিদ্ধান্ত গাছের মধ্যে সমস্ত সম্ভাব্য ফলাফল প্রদর্শন করতে পারি।

    সিদ্ধান্তের গাছকে প্রশিক্ষণ দেওয়ার জন্য, আমাদের প্রশিক্ষণ ডেটাসেটটি ব্যবহার করতে হবে এবং লক্ষ্যের জন্য যে বৈশিষ্ট্যটি সবচেয়ে দরকারী তা খুঁজে বের করতে হবে। উদাহরণস্বরূপ, জালিয়াতি সনাক্তকরণের ব্যবহারের ক্ষেত্রে, আমরা দেখতে পাব যে দেশটি জালিয়াতির ঝুঁকি পূর্বাভাসের ক্ষেত্রে সবচেয়ে বেশি প্রভাব ফেলে। প্রথম বৈশিষ্ট্যটি দিয়ে শাখা করার পরে, আমরা দুটি উপসেট পাই, যা আমরা কেবলমাত্র প্রথম বৈশিষ্ট্যটি জানার পরে সবচেয়ে সঠিকভাবে পূর্বাভাস দিতে পারি। তারপরে আমরা দ্বিতীয়টি খুঁজে পাই যা এই দুটি উপসেটের সাথে শাখা করতে পারে, আবার বিভক্ত করুন, এবং তাই যতক্ষণ না পর্যাপ্ত বৈশিষ্ট্যগুলি লক্ষ্যের চাহিদা পূরণ করে।

  • ২। বন্যপ্রাণী

এলোমেলো বন হল অনেকগুলি সিদ্ধান্ত গাছের গড়, যেখানে প্রতিটি সিদ্ধান্ত গাছকে এলোমেলো তথ্য নমুনার সাথে প্রশিক্ষণ দেওয়া হয়। এলোমেলো বনগুলির প্রতিটি গাছ একটি সম্পূর্ণ সিদ্ধান্ত গাছের চেয়ে দুর্বল, তবে সমস্ত গাছকে একসাথে রেখে, বৈচিত্র্যের সুবিধার কারণে আমরা আরও ভাল সামগ্রিক পারফরম্যান্স পেতে পারি।

র্যান্ডম ফরেস্ট আজ মেশিন লার্নিংয়ের একটি খুব জনপ্রিয় অ্যালগরিদম। র্যান্ডম ফরেস্টকে প্রশিক্ষণ দেওয়া সহজ এবং এটি বেশ ভাল পারফর্ম করে। এর অসুবিধাটি হ'ল অন্যান্য অ্যালগরিদমের তুলনায় র্যান্ডম ফরেস্ট আউটপুট পূর্বাভাসগুলি ধীর হতে পারে, তাই দ্রুত পূর্বাভাস প্রয়োজন হলে র্যান্ডম ফরেস্টটি বেছে নেওয়া হতে পারে না।

  • ৩, উত্তোলন

    গ্রেডিয়েন্ট বুস্টিং (Gradient Boosting), যা র্যান্ডম ফরেস্টের মতো, দুর্বল চক্রের সিদ্ধান্তের গাছের সমন্বয়ে গঠিত। গ্রেডিয়েন্ট বুস্টিং এবং র্যান্ডম ফরেস্টের মধ্যে সবচেয়ে বড় পার্থক্য হ'ল গ্রেডিয়েন্ট বুস্টিং-এ গাছগুলি একের পর এক প্রশিক্ষিত হয়। প্রতিটি পিছনের গাছকে মূলত সামনের গাছটি ভুল তথ্য সনাক্ত করে প্রশিক্ষণ দেওয়া হয়। এটি গ্রেডিয়েন্ট বুস্টিংকে সহজেই ভবিষ্যদ্বাণীযোগ্য পরিস্থিতিতে বেশি মনোযোগ দেয় এবং কম কঠিন পরিস্থিতিতে বেশি মনোযোগ দেয়।

    গ্রেডিয়েন্ট উত্তোলনের প্রশিক্ষণও দ্রুত এবং খুব ভাল। তবে, প্রশিক্ষণ ডেটাসেটের ক্ষুদ্র পরিবর্তনগুলি মডেলটিতে মৌলিক পরিবর্তন আনতে পারে, তাই এটির ফলাফলগুলি সম্ভবত সবচেয়ে কার্যকর নাও হতে পারে।

তৃতীয়ত, নিউরাল নেটওয়ার্ক অ্যালগরিদমঃ নিউরাল নেটওয়ার্ক হল একটি জৈবিক ঘটনা যা মস্তিষ্কের মধ্যে নিউরনগুলির মধ্যে সম্পর্কিত হয় যা একে অপরের সাথে তথ্য বিনিময় করে। এই ধারণাটি এখন মেশিন লার্নিংয়ের ক্ষেত্রে প্রয়োগ করা হয়েছে, যা ANN নামে পরিচিত। গভীর শিক্ষা হ'ল একাধিক স্তরযুক্ত নিউরাল নেটওয়ার্ক যা একে অপরের সাথে overlapped। ANN হল এমন একটি মডেল যা শেখার মাধ্যমে মানুষের মস্তিষ্কের অনুরূপ জ্ঞানীয় ক্ষমতা অর্জন করে। খুব জটিল কাজগুলি যেমন চিত্র স্বীকৃতি পরিচালনা করার সময় নিউরাল নেটওয়ার্কগুলি ভাল সম্পাদন করে। তবে, মানুষের মস্তিষ্কের মতো, মডেলগুলি প্রশিক্ষণের জন্য খুব সময় এবং প্রচুর শক্তি প্রয়োজন।

বিগ ডেটা প্ল্যাটফর্ম থেকে পুনর্নির্দেশিত


আরো