আপনার যে ৭টি ব্যাকগ্রাউন্ড টেকনিক জানা উচিত

লেখক:ছোট্ট স্বপ্ন, তৈরিঃ ২০১৬-১২-১৮ ১০ঃ২২ঃ৪৩, আপডেটঃ ২০১৬-১২-১৮ ১১ঃ০৮ঃ৫৬

আপনার যে ৭টি ব্যাকগ্রাউন্ড টেকনিক জানা উচিত


এই নিবন্ধটি রেগনেশন বিশ্লেষণ এবং এর সুবিধাগুলি ব্যাখ্যা করে, সর্বাধিক ব্যবহৃত সাতটি রেগনেশন কৌশল এবং তাদের মূল উপাদানগুলির উপর জোর দেয়, যেমন লিনিয়ার রেগনেশন, লজিক্যাল রেগনেশন, মাল্টিপ্লেয়ার রেগনেশন, ধাপে ধাপে রেগনেশন, অ্যালুমিনিয়াম রেগনেশন, সুইচ রেগনেশন, ইলাস্টিক নেট রেগনেশন এবং অবশেষে সঠিক রেগনেশন মডেলটি বেছে নেওয়ার মূল উপাদানগুলি। ** ** প্যাটার্ন কম্পাইলার বাটন রিগ্রেশন বিশ্লেষণ মডেলিং এবং বিশ্লেষণের জন্য একটি গুরুত্বপূর্ণ সরঞ্জাম। এই নিবন্ধটি প্যাটার্ন রিগ্রেশন বিশ্লেষণের অর্থ এবং এর সুবিধাগুলি ব্যাখ্যা করে, যা লিনিয়ার রিগ্রেশন, লজিক্যাল রিগ্রেশন, মাল্টিপ্লেয়ার রিগ্রেশন, ধাপে ধাপে রিগ্রেশন, প্যাটার্ন রিগ্রেশন, সুইচ রিগ্রেশন, ইলাস্টিক নেট রিগ্রেশন এবং এর মূল উপাদানগুলির মধ্যে সর্বাধিক ব্যবহৃত সাতটি রিগ্রেশন কৌশল এবং তাদের মূল উপাদানগুলির উপর জোর দেয়।

  • রিগ্রেশন অ্যানালিসিস কি?

    রিগ্রেশন অ্যানালিসিস একটি পূর্বাভাস মডেলিং কৌশল যা কারণ ভেরিয়েবল (গ্রেড) এবং স্ব-ভেরিয়েবল (প্রাক্কলক) এর মধ্যে সম্পর্ক অধ্যয়ন করে। এই কৌশলটি সাধারণত পূর্বাভাস বিশ্লেষণ, সময়কালের ক্রম মডেল এবং আবিষ্কৃত ভেরিয়েবলগুলির মধ্যে কারণ সম্পর্কগুলির জন্য ব্যবহৃত হয়। উদাহরণস্বরূপ, ড্রাইভারের বেপরোয়া ড্রাইভিং এবং সড়ক ট্র্যাফিক দুর্ঘটনার সংখ্যার মধ্যে সম্পর্ক, সর্বোত্তম গবেষণা পদ্ধতি হল রিগ্রেশন।

    রিগ্রেশন অ্যানালিসিস হল মডেলিং এবং বিশ্লেষণের জন্য একটি গুরুত্বপূর্ণ সরঞ্জাম। এখানে, আমরা কার্ভ/লাইন ব্যবহার করে এই ডেটা পয়েন্টগুলিকে ফিট করি, এইভাবে, কার্ভ বা লাইন থেকে ডেটা পয়েন্টের দূরত্বের পার্থক্য সর্বনিম্ন। আমি পরবর্তী বিভাগে এটি বিস্তারিতভাবে ব্যাখ্যা করব।

    img

  • কেন আমরা রিগ্রেশনাল অ্যানালিটিক্স ব্যবহার করি?

    উপরে উল্লিখিত হিসাবে, রিগ্রেশন অ্যানালিসিস দুই বা ততোধিক ভেরিয়েবলের মধ্যে সম্পর্ক অনুমান করে। নীচে, এটি বোঝার জন্য একটি সহজ উদাহরণ দেওয়া যাকঃ

    উদাহরণস্বরূপ, বর্তমান অর্থনৈতিক পরিস্থিতিতে, আপনি একটি কোম্পানির বিক্রয় বৃদ্ধির অনুমান করতে চান। এখন, আপনার কাছে কোম্পানির সর্বশেষ তথ্য রয়েছে যা দেখায় যে বিক্রয় বৃদ্ধির পরিমাণ অর্থনৈতিক বৃদ্ধির তুলনায় প্রায় ২.৫ গুণ বেশি। তাহলে রিগ্রেশন বিশ্লেষণ ব্যবহার করে, আমরা বর্তমান এবং অতীতের তথ্যের ভিত্তিতে ভবিষ্যতের কোম্পানির বিক্রয় বৃদ্ধির পূর্বাভাস দিতে পারি।

    রিগ্রেশন অ্যানালিসিসের অনেক সুবিধা রয়েছে।

    এটি স্ব-ভেরিয়েবল এবং কারন-ভেরিয়েবলের মধ্যে উল্লেখযোগ্য সম্পর্ক দেখায়;

    এটি একটি ভেরিয়েবলের উপর একাধিক স্ব-ভেরিয়েবলের প্রভাবের তীব্রতা নির্দেশ করে।

    রিগ্রেশনাল অ্যানালিটিক্স আমাদের বিভিন্ন স্কেলের ভেরিয়েবলগুলির মধ্যে পারস্পরিক প্রভাবগুলির তুলনা করার অনুমতি দেয়, যেমন দামের পরিবর্তন এবং প্রচারের সংখ্যার মধ্যে সম্পর্ক। এগুলি বাজার গবেষক, ডেটা বিশ্লেষক এবং ডেটা বিজ্ঞানীকে পূর্বাভাস মডেল তৈরির জন্য সর্বোত্তম ভেরিয়েবলগুলির একটি সেট বাদ দিতে এবং অনুমান করতে সহায়তা করে।

  • আমাদের কাছে কতগুলি প্রত্যাবর্তন প্রযুক্তি রয়েছে?

    পূর্বাভাসের জন্য বিভিন্ন ধরণের রিগ্রেশন কৌশল রয়েছে। এই কৌশলগুলির প্রধানত তিনটি পরিমাপ রয়েছে (স্ব-ভেরিয়েবলের সংখ্যা, ভেরিয়েবলের ধরণ এবং রিগ্রেশন লাইনের আকৃতির কারণে) । আমরা নীচের বিভাগে তাদের বিস্তারিতভাবে আলোচনা করব।

    img

    সৃজনশীলদের জন্য, আপনি যদি উপরের প্যারামিটারগুলির সংমিশ্রণটি ব্যবহার করার প্রয়োজন বোধ করেন তবে আপনি একটি অব্যবহৃত রিগ্রেশন মডেলও তৈরি করতে পারেন। তবে আপনি শুরু করার আগে, এখানে সর্বাধিক ব্যবহৃত রিগ্রেশন পদ্ধতিগুলি সম্পর্কে জানুনঃ

    • 1. লিনিয়ার রিগ্রেশন

      এটি সবচেয়ে পরিচিত মডেলিং কৌশলগুলির মধ্যে একটি। লিনিয়ার রিগ্রেশন সাধারণত ভবিষ্যদ্বাণী মডেল শেখার সময় পছন্দের কৌশলগুলির মধ্যে একটি। এই পদ্ধতিতে, কারণ ভেরিয়েবলগুলি ধারাবাহিক, স্ব-ভেরিয়েবলগুলি ধারাবাহিক বা বিচ্ছিন্ন হতে পারে, রিগ্রেশন লাইনের বৈশিষ্ট্যগুলি লিনিয়ার।

      রৈখিক প্রত্যাবর্তন সর্বোত্তম ফিটিং রেখার (অর্থাৎ প্রত্যাবর্তন রেখার) ব্যবহার করে কার্যকরী ভেরিয়েবল (Y) এবং এক বা একাধিক স্ব-ভেরিয়েবল (X) এর মধ্যে একটি সম্পর্ক স্থাপন করে।

      এটি একটি সমীকরণ দ্বারা প্রতিনিধিত্ব করা হয়, যা Y = a + b * X + e, যেখানে a হ'ল ছেদ, b হ'ল একটি সরলরেখার ঢাল, এবং e হ'ল একটি ত্রুটির ক্রিয়া। এই সমীকরণটি প্রদত্ত পূর্বাভাস ভেরিয়েবল ((s) এর উপর ভিত্তি করে লক্ষ্য ভেরিয়েবলের মান পূর্বাভাস দিতে পারে।

      img

      একরৈখিক রেগ্রেসন এবং বহু-রৈখিক রেগ্রেসন এর পার্থক্য হল যে, বহু-রৈখিক রেগ্রেসন এর (<1) একটি স্ব-ভেরিয়েবল থাকে, যখন একরৈখিক রেগ্রেসন সাধারণত মাত্র একটি স্ব-ভেরিয়েবল থাকে। এখন প্রশ্ন হল কিভাবে আমরা একটি সর্বোত্তম ফিট লাইন পাব?

      কিভাবে সেরা ফিট লাইন (a এবং b এর মান) পাওয়া যায়?

      এই সমস্যাটি সহজেই সর্বনিম্ন দ্বিগুণের সাহায্যে সম্পন্ন করা যেতে পারে। সর্বনিম্ন দ্বিগুণ হল সবচেয়ে সাধারণ পদ্ধতি যা regression line-fitting-এর জন্য ব্যবহৃত হয়। পর্যবেক্ষণের জন্য, এটি প্রতিটি ডেটা পয়েন্ট থেকে লাইন পর্যন্ত উল্লম্ব বিচ্যুতির বর্গাকার যোগফলকে সর্বনিম্ন করে সর্বোত্তম ফিট লাইন গণনা করে। কারণ যোগ করার সময়, বিচ্যুতিটি প্রথম বর্গাকার হয়, তাই ধনাত্মক এবং নেতিবাচক মানগুলি অফসেট হয় না।

      img

      আমরা R-square ইন্ডিকেটর ব্যবহার করে মডেলের পারফরম্যান্স মূল্যায়ন করতে পারি। এই ইন্ডিকেটর সম্পর্কে বিস্তারিত জানতে, আপনি পড়তে পারেনঃ মডেল পারফরম্যান্স ইন্ডিকেটর পার্ট 1, পার্ট 2।

      পয়েন্টঃ

      • স্ব-ভেরিয়েবল এবং কার্ডিওভেরিয়েবলের মধ্যে একটি লিনিয়ার সম্পর্ক থাকতে হবে
      • মাল্টি-রেগনেশন একাধিক সিওলিনিয়ার, স্ব-সম্পর্কিততা এবং বিচ্ছিন্নতা রয়েছে।
      • লিনিয়ার রিগ্রেসন খুব অস্বাভাবিক মানের প্রতি সংবেদনশীল। এটি লিনিয়ার রিগ্রেসনকে মারাত্মকভাবে প্রভাবিত করে এবং শেষ পর্যন্ত পূর্বাভাসকে প্রভাবিত করে।
      • একাধিক সিনোলেনিটি কোয়ালিটি অনুমানের পার্থক্যকে বাড়িয়ে তোলে, যা মডেলের সামান্য পরিবর্তনের ক্ষেত্রে অনুমানকে অত্যন্ত সংবেদনশীল করে তোলে। ফলস্বরূপ, কোয়ালিটি অনুমানগুলি অস্থির হয়।
      • একাধিক স্ব-ভেরিয়েবলের ক্ষেত্রে, আমরা সবচেয়ে গুরুত্বপূর্ণ স্ব-ভেরিয়েবলগুলি নির্বাচন করতে অগ্রসর নির্বাচন, পিছনে বাদ দেওয়া এবং ধাপে ধাপে ফিল্টারিং ব্যবহার করতে পারি।
    • 2. লজিস্টিক রিগ্রেশন লজিক্যাল রিগ্রেশন

      লজিক্যাল রেগ্রেসন হল এমন একটি পদ্ধতি যার সাহায্যে আমরা হিসাব করতে পারি যে, হিসাবের সম্ভাবনা হল হিসাবের সংখ্যা = Success হিসাব এবং হিসাবের সংখ্যা = Failure হিসাব। এখানে, Y এর মান 0 থেকে 1 পর্যন্ত, এবং এটি নিম্নলিখিত সমীকরণ দ্বারা প্রকাশ করা যেতে পারে।

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      উপরের সূত্রের মধ্যে, p-র একটি নির্দিষ্ট বৈশিষ্ট্যের সম্ভাব্যতা রয়েছে। আপনি যদি প্রশ্ন করেন, তাহলে আমরা কেন log ব্যবহার করব?

      কারণ এখানে আমরা দ্বিপদী বন্টন ((ভেরিয়েবলের কারণে) ব্যবহার করছি, আমাদের একটি সংযোগ ফাংশন নির্বাচন করতে হবে যা এই বন্টনের জন্য সর্বোত্তম। এটি হল লগিট ফাংশন। উপরের সমীকরণে, প্যারামিটারটি বেছে নেওয়া হয়, যা একটি পর্যবেক্ষণের নমুনার অত্যন্ত অনুরূপ অনুমান দ্বারা নির্ধারিত হয়, বরং বর্গ এবং ত্রুটিকে হ্রাস করা হয় ((যেমন সাধারণ প্রত্যাবর্তনে ব্যবহৃত হয়) ।

      img

      পয়েন্টঃ

      • এটি ব্যাপকভাবে শ্রেণিবদ্ধকরণ সমস্যার জন্য ব্যবহৃত হয়।
      • লজিক্যাল রিগ্রেশন স্ব-ভেরিয়েবলের প্রয়োজন হয় না এবং কারণ ভেরিয়েবলটি একটি রৈখিক সম্পর্ক। এটি বিভিন্ন ধরণের সম্পর্ক পরিচালনা করতে পারে কারণ এটি ভবিষ্যদ্বাণী করা আপেক্ষিক ঝুঁকি সূচক OR এর জন্য একটি অ-রৈখিক লগ রূপান্তর ব্যবহার করে।
      • অত্যধিক ফিট এবং ফিট না হওয়ার জন্য, আমাদের সমস্ত গুরুত্বপূর্ণ ভেরিয়েবল অন্তর্ভুক্ত করা উচিত। এটি নিশ্চিত করার একটি ভাল উপায় হল ধাপে ধাপে ফিল্টারিং পদ্ধতি ব্যবহার করে লজিক্যাল রিগ্রেশন অনুমান করা।
      • এটির জন্য বড় পরিমাণে নমুনা প্রয়োজন, কারণ ছোট সংখ্যক নমুনার ক্ষেত্রে, খুব অনুরূপ অনুমানগুলি সাধারণ সর্বনিম্ন দ্বিগুণের চেয়ে খারাপ প্রভাব ফেলে।
      • স্বতন্ত্র ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কিত হওয়া উচিত নয়, অর্থাৎ একাধিক কো-লিনিয়ার নেই। তবে, বিশ্লেষণ এবং মডেলিংয়ে, আমরা শ্রেণিবদ্ধ ভেরিয়েবলগুলির মিথস্ক্রিয়া প্রভাবগুলি অন্তর্ভুক্ত করার বিকল্পটি বেছে নিতে পারি।
      • যদি ভেরিয়েবলের মানটি একটি অর্ডার করা ভেরিয়েবল হয়, তবে এটিকে অর্ডার লজিক্যাল রিগ্রেশন বলা হয়।
      • যদি ভেরিয়েবলের কারণে বহুবচন হয়, তবে এটিকে বহুবচন যৌক্তিক প্রত্যাবর্তন বলা হয়।
    • ৩. পলিনোমিয়াল রিগ্রেশন

      একটি প্রত্যাবর্তন সমীকরণের জন্য, যদি স্ব-ভেরিয়েবলের সূচক 1 এর চেয়ে বড় হয়, তবে এটি একটি বহুপদীয় প্রত্যাবর্তন সমীকরণ।

      y=a+b*x^2
      

      এই রিগ্রেশন প্রযুক্তিতে, সর্বোত্তম ফিট লাইনটি একটি সরলরেখা নয়; এটি একটি কার্ভ যা ডেটা পয়েন্টগুলিকে ফিট করার জন্য ব্যবহৃত হয়।

      img

      মূল বিষয়ঃ

      • যদিও একটি প্ররোচনা থাকবে যে একটি উচ্চতর বহুবচন ফর্মুলা ফিট করতে পারে এবং কম ত্রুটি পেতে পারে, তবে এটি ওভারফিট হতে পারে। আপনি প্রায়শই ফিটগুলি দেখতে সম্পর্কিত চার্টগুলি আঁকতে হবে এবং ফিটগুলি যুক্তিসঙ্গত, ওভারফিট বা অ-ফিট উভয়ই নিশ্চিত করার দিকে মনোনিবেশ করতে হবে। নীচে একটি চিত্র রয়েছে যা বোঝার জন্য সহায়তা করতে পারেঃ

      img

      • স্পষ্টতই উভয় প্রান্তে বক্ররেখা খুঁজুন এবং দেখুন যে এই আকার এবং প্রবণতাগুলি অর্থপূর্ণ কিনা; উচ্চতর বহুপদী শেষ পর্যন্ত অদ্ভুত ফলাফলের দিকে পরিচালিত করতে পারে।
    • 4. ধাপে ধাপে স্টেপওয়াইস রিগ্রেশন

      একাধিক স্বতন্ত্র ভেরিয়েবলের সাথে কাজ করার সময় আমরা এই ফর্মটি ব্যবহার করতে পারি। এই কৌশলটিতে, স্বতন্ত্র ভেরিয়েবল নির্বাচন একটি স্বয়ংক্রিয় প্রক্রিয়াতে সম্পন্ন হয়, যার মধ্যে অ-মানবিক অপারেশন অন্তর্ভুক্ত রয়েছে।

      এই কৃতিত্বটি হল পরিসংখ্যানের মানগুলি যেমন R-square, t-stats এবং AIC সূচকগুলি পর্যবেক্ষণ করে গুরুত্বপূর্ণ ভেরিয়েবলগুলি সনাক্ত করা। ধাপে ধাপে regression নির্দিষ্ট মানদণ্ডের উপর ভিত্তি করে একই সময়ে যোগ / অপসারণ সহ-ভেরিয়েবলগুলিকে মডেলের সাথে ফিট করে। নীচে কয়েকটি সর্বাধিক ব্যবহৃত ধাপে ধাপে regression পদ্ধতি তালিকাভুক্ত করা হয়েছেঃ

      • স্ট্যান্ডার্ড পিএসই রিগ্রেশন দুটি জিনিস করে; অর্থাৎ প্রতিটি ধাপে প্রয়োজনীয় পূর্বাভাস যোগ এবং অপসারণ করে।
      • ফরোয়ার্ড নির্বাচন পদ্ধতিটি মডেলের সবচেয়ে উল্লেখযোগ্য পূর্বাভাস দিয়ে শুরু করে এবং প্রতিটি ধাপের জন্য ভেরিয়েবল যুক্ত করে।
      • বিপরীতমুখী নির্মূল পদ্ধতিটি মডেলের সাথে সমস্ত পূর্বাভাসের সাথে একসাথে শুরু হয় এবং তারপরে প্রতিটি পদক্ষেপে সর্বনিম্ন উল্লেখযোগ্য ভেরিয়েবলগুলি বাদ দেয়।
      • এই মডেলিং কৌশলটির উদ্দেশ্য হল সর্বাধিক পূর্বাভাস দেওয়ার জন্য সর্বনিম্ন সংখ্যক পূর্বাভাস ভেরিয়েবল ব্যবহার করা। এটি উচ্চ মাত্রার ডেটাসেটগুলি পরিচালনা করার একটি উপায়।
    • ৫. রিজ রেগ্রেশন

      হিল রিগ্রেশন বিশ্লেষণ একটি প্রযুক্তি যা একাধিক সিনিলিনিক (ভেরিয়েবলের উচ্চতার সাথে সম্পর্কিত) ডেটা থাকার জন্য ব্যবহৃত হয়। একাধিক সিনিলিনিকের ক্ষেত্রে, যদিও সর্বনিম্ন দ্বিগুণ (ওএলএস) প্রতিটি ভেরিয়েবলের জন্য ন্যায়সঙ্গত, তবে তাদের পার্থক্য এত বেশি যে পর্যবেক্ষণের মানগুলি বিচ্যুত হয় এবং সত্যিকারের মান থেকে দূরে থাকে। হিল রিগ্রেশন হ্রাস করে স্ট্যান্ডার্ড ত্রুটি, রিগ্রেশন অনুমানকে একটি বিচ্যুতি বৃদ্ধি করে।

      উপরে, আমরা একটি লিনিয়ার রিগ্রেশন ইকুয়েশন দেখেছি। মনে আছে? এটা হতে পারেঃ

      y=a+ b*x
      

      এই সমীকরণের একটি ত্রুটিও রয়েছে।

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      একটি রৈখিক সমীকরণে, পূর্বাভাস ত্রুটি দুটি উপ-অংশে বিভক্ত করা যেতে পারে। একটি হল বিচ্যুতি এবং অন্যটি হল বিয়োগ। পূর্বাভাস ত্রুটিগুলি এই দুটি ভগ্নাংশ বা উভয়ই হতে পারে। এখানে আমরা বিয়োগের কারণে সংশ্লিষ্ট ত্রুটিগুলি নিয়ে আলোচনা করব।

      ল্যাম্বডা (λ) সংক্ষেপণ পরামিতির মাধ্যমে বহুগুণ সিনলাইন সমস্যা সমাধান করা হয়। নিচের সূত্রটি দেখুন।

      img

      এই সূত্রের দুটি উপাদান রয়েছে; প্রথমটি হল সর্বনিম্ন দ্বিগুণ, অন্যটি হল β2 ((β- বর্গ) এর গুণক λ, যেখানে β হল সংশ্লিষ্ট ক্রিয়াফল। সংকোচন পরামিতির জন্য এটিকে সর্বনিম্ন দ্বিগুণের মধ্যে যোগ করে একটি খুব কম ব্যাসার্ধ পাওয়া যায়।

      পয়েন্টঃ

      • ক্রমাগত পদ ব্যতীত, এই প্রত্যাবর্তনের অনুমানটি সর্বনিম্ন দ্বিগুণ প্রত্যাবর্তনের অনুরূপ;
      • এটি সংশ্লিষ্ট ফ্যাক্টরগুলির মানকে সঙ্কুচিত করে, কিন্তু শূন্যে পৌঁছায় না, যা দেখায় যে এটিতে বৈশিষ্ট্য নির্বাচন ফাংশন নেই
      • এটি একটি নিয়মিত পদ্ধতি এবং L2 নিয়মিত ব্যবহার করা হয়।
    • 6. লাসো রিগ্রেশন কোয়ালিটি রিগ্রেশন

      এটি হেক্টর রিগ্রেশন এর অনুরূপ, লাসো (Least Absolute Shrinkage and Selection Operator) এছাড়াও রিগ্রেশন কোয়ালিটি এর নিখুঁত মানের আকারকে শাস্তি দেয়। উপরন্তু, এটি পরিবর্তনের মাত্রা হ্রাস করতে এবং রৈখিক রিগ্রেশন মডেলের নির্ভুলতা উন্নত করতে সক্ষম। নিচের সূত্রটি দেখুনঃ

      img

      লাসো রিগ্রেশন রিজ রিগ্রেশনের থেকে কিছুটা আলাদা, এটির শাস্তি ফাংশনটি বর্গাকার নয়, তবে একটি নিখুঁত মান। এর ফলে শাস্তি (বা সীমাবদ্ধতা অনুমানগুলির নিখুঁত মানের যোগফলের সমান) মানগুলি কিছু পরামিতির অনুমানের ফলাফলকে শূন্য করে তোলে। শাস্তি মানগুলি ব্যবহার করা যত বড়, আরও অনুমানগুলি শূন্যের কাছাকাছি হ্রাস করে তোলে। এর ফলে আমাদের দেওয়া n টি ভেরিয়েবল থেকে ভেরিয়েবলগুলি বেছে নিতে হবে।

      পয়েন্টঃ

      • ক্রমাগত পদ ব্যতীত, এই প্রত্যাবর্তনের অনুমানটি সর্বনিম্ন দ্বিগুণ প্রত্যাবর্তনের অনুরূপ;
      • এটির সঙ্কুচিত কোয়ালিটি প্রায় শূন্য ((= শূন্য), যা বৈশিষ্ট্য নির্বাচনে সহায়তা করে;
      • এটি একটি নিয়মিত পদ্ধতি, যা L1 নিয়মিত ব্যবহার করে;
      • যদি একটি পূর্বাভাসের ভেরিয়েবল সেট অত্যন্ত প্রাসঙ্গিক হয়, তাহলে লাসো একটি ভেরিয়েবল বেছে নেবে এবং বাকিগুলোকে শূন্যে সঙ্কুচিত করবে।
    • 7.ElasticNet回归

      ইলাস্টিক নেট হল লাসো এবং রিজ রিগ্রেশন প্রযুক্তির একটি মিশ্রণ। এটি L1 ব্যবহার করে প্রশিক্ষণ দেয় এবং L2কে অগ্রাধিকার দেয়। যখন একাধিক সম্পর্কিত বৈশিষ্ট্য থাকে তখন ইলাস্টিক নেট দরকারী। লাসো তাদের মধ্যে একটিকে এলোমেলোভাবে বেছে নেয় এবং ইলাস্টিক নেট দুটি বেছে নেয়।

      img

      লাসো এবং রিজের মধ্যে বাস্তব সুবিধা হল যে এটি ইলাস্টিকনেটকে রিজের কিছু স্থিতিশীলতা লুপিং অবস্থায় উত্তরাধিকার করতে দেয়।

      পয়েন্টঃ

      • এটি উচ্চ-প্রাসঙ্গিক ভেরিয়েবলগুলির ক্ষেত্রে একটি গ্রুপ প্রভাব তৈরি করে;
      • কোন সীমাবদ্ধতা নেই।
      • এটি দ্বিগুণ সংকোচন সহ্য করতে পারে।
      • এই সাতটি সবচেয়ে বেশি ব্যবহৃত রিগ্রেশন প্রযুক্তি ছাড়াও, আপনি অন্যান্য মডেলগুলি যেমন বেয়েজিয়ান, ইকোলজিকাল এবং রোবস্ট রিগ্রেশন দেখতে পারেন।
    • কিভাবে সঠিকভাবে রিগ্রেশন মডেল নির্বাচন করবেন?

      আপনি যখন কেবলমাত্র একটি বা দুটি কৌশল জানেন তখন জীবনটি প্রায়শই সহজ হয়। আমি জানি একটি প্রশিক্ষণ সংস্থা তাদের শিক্ষার্থীদের বলেছিল যে ফলাফলটি ধারাবাহিক হলে রৈখিক রিগ্রেশন ব্যবহার করুন। যদি এটি দ্বৈত হয় তবে যৌক্তিক রিগ্রেশন ব্যবহার করুন! তবে আমাদের প্রক্রিয়াকরণে যত বেশি পছন্দ করা যায় ততই সঠিকটি বেছে নেওয়া কঠিন। অনুরূপ পরিস্থিতি রিগ্রেশন মডেলগুলিতেও ঘটে।

      মাল্টি-ক্লাস রিগ্রেশন মডেলের ক্ষেত্রে, স্ব-ভেরিয়েবল এবং ভেরিয়েবলের ধরণ, ডেটার মাত্রা এবং ডেটার অন্যান্য মৌলিক বৈশিষ্ট্যগুলির উপর ভিত্তি করে সবচেয়ে উপযুক্ত কৌশলটি বেছে নেওয়া অত্যন্ত গুরুত্বপূর্ণ। নিচে সঠিক রিগ্রেশন মডেলটি বেছে নেওয়ার জন্য গুরুত্বপূর্ণ বিষয়গুলি রয়েছেঃ

      ডেটা অন্বেষণ ভবিষ্যদ্বাণীমূলক মডেল নির্মাণের একটি অনিবার্য অংশ। এটি উপযুক্ত মডেল নির্বাচন করার সময়, যেমন ভেরিয়েবলের সম্পর্ক এবং প্রভাব সনাক্ত করার সময়, এটি একটি অগ্রাধিকার পদক্ষেপ হওয়া উচিত।

      বিভিন্ন মডেলের মধ্যে তুলনামূলকভাবে উপযুক্ত উপকারিতা হ'ল আমরা বিভিন্ন সূচক প্যারামিটার যেমন পরিসংখ্যানগত অর্থের প্যারামিটার, আর-স্কয়ার, অ্যাডজাস্টড আর-স্কয়ার, এআইসি, বিআইসি এবং ত্রুটি পয়েন্টগুলি বিশ্লেষণ করতে পারি, অন্যটি হল ম্যালাউস পিল সিপি নির্দেশিকা। এটি মূলত মডেলটি সমস্ত সম্ভাব্য উপমডেলের সাথে তুলনা করে (বা তাদের সাবধানে নির্বাচন করে) আপনার মডেলের মধ্যে সম্ভাব্য বিচ্যুতি পরীক্ষা করে।

      ক্রস-ভেরিফিকেশন হল পূর্বাভাস মডেলের মূল্যায়নের সর্বোত্তম পদ্ধতি। এখানে, আপনার ডেটাসেটকে দুটি ভাগে ভাগ করুন (একটি প্রশিক্ষণ এবং একটি যাচাইকরণ) । আপনার পূর্বাভাসের নির্ভুলতা পরিমাপ করতে পর্যবেক্ষণের মান এবং পূর্বাভাসের মানের মধ্যে একটি সহজ গড় পার্থক্য ব্যবহার করুন।

      যদি আপনার ডাটাসেটটি একাধিক মিশ্র ভেরিয়েবল হয়, তাহলে আপনি স্বয়ংক্রিয় মডেল নির্বাচন পদ্ধতিটি বেছে নেবেন না, কারণ আপনি একই সময়ে সমস্ত ভেরিয়েবলকে একই মডেলের মধ্যে রাখতে চান না।

      এটি আপনার উদ্দেশ্যের উপরও নির্ভর করবে। এমন পরিস্থিতিও হতে পারে যে একটি কম শক্তিশালী মডেল উচ্চ পরিসংখ্যানগত গুরুত্বের মডেলের তুলনায় বাস্তবায়ন করা সহজ।

      রেগ্রেশন রুলারাইজেশন পদ্ধতি (লাসো, রিজ এবং ইলাস্টিক নেট) উচ্চ মাত্রা এবং ডেটাসেট ভেরিয়েবলগুলির মধ্যে একাধিক সিওলিনিয়ারের ক্ষেত্রে ভাল কাজ করে।

সিএসডিএন থেকে পুনর্নির্দেশিত


আরো