مشین لرننگ کے 8 بڑے الگورتھم کا موازنہ

مصنف:چھوٹا سا خواب, تخلیق: 2016-12-05 10:42:02, تازہ کاری:

مشین لرننگ کے 8 بڑے الگورتھم کا موازنہ


یہ مضمون بنیادی طور پر مندرجہ ذیل عام طور پر استعمال ہونے والے الگورتھم کے موافقت کے منظرناموں اور ان کے فوائد اور نقصانات کا جائزہ لیتا ہے۔

مشین سیکھنے کے بہت سارے الگورتھم ہیں ، درجہ بندی ، رجعت ، درجہ بندی ، سفارشات ، تصویری شناخت وغیرہ کے شعبوں میں ، ایک مناسب الگورتھم تلاش کرنا واقعی آسان نہیں ہے ، لہذا عملی استعمال میں ، ہم عام طور پر حوصلہ افزائی سیکھنے کے طریقوں کا استعمال کرتے ہوئے تجربہ کرتے ہیں۔

عام طور پر ہم سب سے پہلے عام طور پر تسلیم شدہ الگورتھم جیسے ایس وی ایم، جی بی ڈی ٹی، اڈابوسٹ کا انتخاب کرتے ہیں، اب گہری سیکھنے کا شوق ہے، اور نیورل نیٹ ورک بھی ایک اچھا انتخاب ہے.

اگر آپ درستگی کے بارے میں فکر مند ہیں تو ، بہترین طریقہ یہ ہے کہ ہر الگورتھم کو ایک ایک کرکے کراس ویلیڈیشن کے ذریعے جانچنا ، موازنہ کرنا ، اور پھر پیرامیٹرز کو ایڈجسٹ کرنا تاکہ ہر الگورتھم کو زیادہ سے زیادہ حاصل کیا جاسکے ، اور آخر میں بہترین انتخاب کریں۔

لیکن اگر آپ صرف ایک ایسے الگورتھم کی تلاش کر رہے ہیں جو آپ کے مسئلے کو حل کرنے کے لئے کافی اچھا ہے ، یا یہاں کچھ تجاویز ہیں جن پر آپ رجوع کرسکتے ہیں ، ذیل میں ہر الگورتھم کے فوائد اور نقصانات کا تجزیہ کیا گیا ہے ، اور اس کے فوائد اور نقصانات کی بنیاد پر ، ہم اسے منتخب کرنا آسان بنا سکتے ہیں۔

  • انحراف اور فرق

    اعداد و شمار میں، ایک ماڈل اچھا یا برا ہے، اور یہ انحراف اور فرق کے لحاظ سے ماپا جاتا ہے، لہذا ہم پہلے انحراف اور فرق کو عام کرتے ہیں:

    انحراف: پیش گوئی کی قیمت (توقع شدہ قیمت) کے متوقع E اور حقیقی قیمت Y کے درمیان فرق کی وضاحت کرتا ہے۔ انحراف جتنا بڑا ہوگا ، اتنا ہی حقیقی اعداد و شمار سے دور ہوگا۔

img

فاصلہ: یہ بیان کرتا ہے کہ پی کی پیشن گوئی کی قیمت میں تبدیلی کا دائرہ کار ، جس میں فاصلہ ، پی کی پیشن گوئی کی قیمت کا فاصلہ ہے ، یعنی اس کی متوقع قیمت E سے فاصلہ ہے۔ فاصلہ جتنا بڑا ہوگا ، اعداد و شمار کی تقسیم اتنی ہی منتشر ہوگی۔

img

ماڈل کی اصل غلطی ان دونوں کا مجموعہ ہے، جیسا کہ ذیل میں دکھایا گیا ہے:

img

اگر یہ ایک چھوٹا سا ٹریننگ سیٹ ہے تو ، اعلی انحراف / کم انحراف والے درجہ بندی کرنے والے (مثال کے طور پر ، سادہ بیزس این بی) کم انحراف / اعلی انحراف والے درجہ بندی کرنے والے (مثال کے طور پر ، کے این این) کے مقابلے میں زیادہ فائدہ مند ہیں کیونکہ مؤخر الذکر زیادہ موزوں ہے۔

تاہم ، جیسے جیسے آپ کا ٹریننگ سیٹ بڑھتا جاتا ہے ، ماڈل اصل اعداد و شمار کے بارے میں بہتر اندازہ لگاتا ہے ، انحراف کم ہوجاتا ہے ، اس وقت کم انحراف / اعلی انحراف والے درجہ بندی کرنے والے آہستہ آہستہ اپنے فوائد کا مظاہرہ کرتے ہیں (کیونکہ ان میں کم تعاقب کی غلطی ہوتی ہے) ، جب اعلی انحراف والے درجہ بندی کرنے والے اس وقت درست ماڈل فراہم کرنے کے لئے کافی نہیں ہوتے ہیں۔

یقینا، آپ یہ بھی سوچ سکتے ہیں کہ یہ پیدا کرنے والے ماڈل (NB) اور فیصلہ کرنے والے ماڈل (KNN) کے درمیان فرق ہے۔

  • کیوں کہتے ہیں کہ سادہ بیز اعلی انحراف کم انحراف ہے؟

    مندرجہ ذیل مواد کے بارے میں آگاہ کیا گیا ہے:

    سب سے پہلے ، فرض کریں کہ آپ کو ٹریننگ سیٹ اور ٹیسٹ سیٹ کے مابین تعلقات معلوم ہیں۔ اس کا مطلب یہ ہے کہ ہم ٹریننگ سیٹ پر ایک ماڈل سیکھنا چاہتے ہیں اور پھر ٹیسٹ سیٹ کو استعمال کرنے کے ل.

    لیکن بہت سے اوقات، ہم صرف یہ فرض کر سکتے ہیں کہ ٹیسٹ سیٹ اور ٹریننگ سیٹ ایک ہی ڈیٹا تقسیم کے مطابق ہیں، لیکن اصل ٹیسٹ ڈیٹا نہیں ملتا ہے۔ اگر آپ صرف ٹریننگ غلطی کی شرح دیکھ رہے ہیں تو ٹیسٹ کی غلطی کی شرح کی پیمائش کیوں کریں؟

    چونکہ ٹریننگ کے نمونے بہت کم ہیں (کم از کم کافی نہیں) ، لہذا ٹریننگ سیٹ کے ذریعہ موصول ہونے والا ماڈل ہمیشہ صحیح نہیں ہوتا ہے۔ یہاں تک کہ اگر ٹریننگ سیٹ پر 100٪ درستگی کا امکان ہے تو ، اس کا مطلب یہ نہیں ہے کہ اس نے حقیقی اعداد و شمار کی تقسیم کو نقش کیا ہے۔ یہ جاننا کہ حقیقی اعداد و شمار کی تقسیم کو نقش کرنا ہمارا مقصد ہے ، نہ کہ صرف ٹریننگ سیٹ کے محدود اعداد و شمار کو نقش کرنا) ۔

    اس کے علاوہ ، عملی طور پر ، تربیتی نمونے میں اکثر کچھ شور کی غلطی بھی ہوتی ہے ، لہذا اگر کسی بہت ہی پیچیدہ ماڈل کا استعمال کرتے ہوئے تربیتی سیٹ پر کمال کی تلاش کی جاتی ہے تو ، ماڈل کو تربیتی سیٹ میں غلطیوں کو حقیقی اعداد و شمار کی تقسیم کی خصوصیات کے طور پر پیش کرنا پڑتا ہے ، جس سے غلط اعداد و شمار کی تقسیم کا تخمینہ مل جاتا ہے۔

    اس طرح ، حقیقی ٹیسٹ سیٹ پر غلطیاں ہوجاتی ہیں (اس رجحان کو مطابقت کہتے ہیں) ؛ لیکن نہ ہی بہت آسان ماڈل کا استعمال کیا جاسکتا ہے ، ورنہ جب اعداد و شمار کی تقسیم نسبتا complex پیچیدہ ہوتی ہے تو ، ماڈل اعداد و شمار کی تقسیم کو نقش کرنے کے لئے ناکافی ہوتا ہے (جس کا مطلب یہ ہے کہ یہاں تک کہ ٹریننگ سیٹ پر بھی غلطی کی شرح بہت زیادہ ہے ، جو کہ عدم مطابقت کا رجحان ہے) ۔

    زیادہ فٹ ہونے کا مطلب ہے کہ ماڈل کا استعمال حقیقی اعداد و شمار کی تقسیم سے زیادہ پیچیدہ ہے ، جبکہ کم فٹ ہونے کا مطلب ہے کہ ماڈل کا استعمال حقیقی اعداد و شمار کی تقسیم سے زیادہ آسان ہے۔

    اعداد و شمار کے سیکھنے کے فریم ورک میں ، جب لوگ ماڈل کی پیچیدگی کا خاکہ بناتے ہیں تو ، یہ خیال ہوتا ہے کہ غلطی = تعصب + تغیرات۔ یہاں غلطی کو شاید ماڈل کی پیش گوئی کی غلطی کی شرح سمجھا جاسکتا ہے ، جس میں دو حصے ہوتے ہیں ، ایک حصہ ماڈل کی بہت سادگی کی وجہ سے اندازے میں غلط حصہ (Bias) ، اور دوسرا حصہ ماڈل کی بہت پیچیدگی کی وجہ سے زیادہ تبدیلی کی جگہ اور غیر یقینی صورتحال (Variance) ۔

    لہذا ، اس طرح سادہ بیسس کا تجزیہ کرنا آسان ہے۔ اس کا سادہ مفروضہ کہ اعداد و شمار کے مابین کوئی تعلق نہیں ہے ، ایک بہت ہی آسان ماڈل ہے۔ لہذا ، اس طرح کے ایک سادہ ماڈل کے ل most ، زیادہ تر معاملات میں ، Bias کا حصہ Variance کے حصے سے بڑا ہوگا ، یعنی اعلی انحراف اور کم انحراف۔

    عملی طور پر ، غلطی کو کم سے کم کرنے کے ل we ، ہمیں ماڈل کا انتخاب کرتے وقت تعصب اور تغیر کے تناسب کو متوازن کرنے کی ضرورت ہے ، یعنی اوور فٹنگ اور انڈر فٹنگ کو متوازن کرنا۔

    ماڈل کی پیچیدگی کے ساتھ انحراف اور فرق کا تعلق مندرجہ ذیل چارٹ کا استعمال کرتے ہوئے واضح ہے:

img

جب ماڈل کی پیچیدگی بڑھتی ہے تو ، انحراف آہستہ آہستہ چھوٹا ہوتا ہے ، اور فاصلہ آہستہ آہستہ بڑا ہوتا ہے۔

  • عام الگورتھم کے فوائد اور نقصانات

    • 1.朴素贝叶斯

      سادہ بیزس جنریٹر ماڈل سے تعلق رکھتا ہے (جنریٹر ماڈل اور فیصلہ کن ماڈل کے بارے میں ، یا بنیادی طور پر یہ کہ آیا مشترکہ تقسیم کی ضرورت ہے) ، بہت آسان ہے ، آپ صرف گنتی کا ایک ڈھیر بناتے ہیں۔

      اگر مشروط آزادی کا مفروضہ (ایک زیادہ سخت شرط) طے کیا جائے تو ، ایک سادہ بیزس درجہ بندی کرنے والا ماڈل کو طے کرنے سے کہیں زیادہ تیز رفتار ہوگا ، جیسے منطقی رجعت ، لہذا آپ کو صرف کم تربیتی اعداد و شمار کی ضرورت ہوگی۔ یہاں تک کہ اگر NB شرائط کی آزادی کا مفروضہ درست نہیں ہوتا ہے تو ، NB درجہ بندی کرنے والا عملی طور پر بہت اچھا کام کرتا ہے۔

      اس کا بنیادی نقصان یہ ہے کہ یہ خصوصیات کے مابین تعامل کو نہیں سیکھ سکتا ، اور ایم آر ایم آر میں آر کے طور پر ، یہ خصوصیات کی ضرورت سے زیادہ ہے۔ مثال کے طور پر ، اگر آپ کو بریڈ پٹ اور ٹام کروز کی فلمیں پسند ہیں تو ، یہ ان فلموں کو نہیں سیکھ سکتا ہے جن میں آپ ان کے ساتھ کام کرنا پسند نہیں کرتے ہیں۔

      فوائد:

      سادہ Bayesian ماڈل کلاسیکی ریاضیاتی نظریہ سے شروع ہوتا ہے، جس میں ایک مضبوط ریاضیاتی بنیاد ہے، اور مستحکم درجہ بندی کی کارکردگی ہے۔ چھوٹے پیمانے پر اعداد و شمار کے ساتھ اچھی کارکردگی کا مظاہرہ کرتا ہے، کثیر کلاس کے کاموں کو ایک ساتھ سنبھال سکتا ہے، اور یہ اضافہ کی تربیت کے لئے موزوں ہے. یہ اعداد و شمار کی کمی کے بارے میں زیادہ حساس نہیں ہے، اور الگورتھم نسبتا آسان ہے، جو اکثر متن کی درجہ بندی کے لئے استعمال کیا جاتا ہے. نقصانات:

      اس کے علاوہ، یہ بھی ضروری ہے کہ آپ کو پہلے سے ہی امکانات کا حساب لگایا جائے. درجہ بندی کے فیصلوں میں غلطی کی شرح ان پٹ کے اعداد و شمار کی اظہار کی شکل کے لئے حساس.

    • 2.逻辑回归

      یہ ایک فیصلہ کن ماڈل ہے، جس میں بہت سے طریقے ہیں (L0، L1، L2، وغیرہ) اور آپ کو اس بات کی فکر کرنے کی ضرورت نہیں ہے کہ آپ کی خصوصیات متعلقہ ہیں جیسے سادہ Bayesian.

      اس کے علاوہ، آپ کو ایک اچھا امکان کی وضاحت بھی ملتی ہے جو آپ کو فیصلہ درختوں اور ایس وی ایم مشینوں کے مقابلے میں ملتی ہے، اور آپ کو نئے اعداد و شمار کا استعمال کرتے ہوئے ماڈل کو اپ ڈیٹ کرنے کے لئے بھی آسان ہوسکتا ہے (ان لائن گریڈیئنٹ نزول الگورتھم کا استعمال کرتے ہوئے).

      اگر آپ کو کسی امکانات کے ڈھانچے کی ضرورت ہے (مثال کے طور پر ، درجہ بندی کے حد کو آسانی سے ایڈجسٹ کرنا ، غیر یقینی صورتحال کی نشاندہی کرنا ، یا اعتماد کا فاصلہ حاصل کرنا) ، یا آپ بعد میں زیادہ تر تر تربیت کے اعداد و شمار کو تیزی سے ماڈل میں ضم کرنا چاہتے ہیں تو ، اس کا استعمال کریں۔

      Sigmoid فنکشن:

      img

      فوائد: صنعتی مسائل میں سادہ اور وسیع پیمانے پر لاگو کیا جا سکتا ہے؛ درجہ بندی کے وقت بہت کم کمپیوٹنگ ، تیز رفتار ، کم اسٹوریج وسائل۔ ایک آسان مشاہداتی نمونہ کے امکانات کے سکور؛ منطقی رجعت کے لئے ، متعدد ہم آہنگی کوئی مسئلہ نہیں ہے ، اور یہ L2 کی باقاعدگی کے ساتھ مل کر اس مسئلے کو حل کرسکتا ہے۔ نقصانات: جب خصوصیت کی جگہ بڑی ہے تو، منطقی واپسی کی کارکردگی اچھی نہیں ہے؛ آسانی سے ناقص اور عام طور پر کم درستگی بڑی تعداد میں کثیر اقسام کی خصوصیات یا متغیرات کو اچھی طرح سے سنبھال نہیں سکتے۔ صرف دو درجہ بندی کے مسائل (جس کی بنیاد پر اخذ کردہ سافٹ میکس کو کثیر درجہ بندی کے لئے استعمال کیا جاسکتا ہے) پر کام کیا جاسکتا ہے ، اور اسے لکیری طور پر تقسیم کیا جانا چاہئے۔ اس کے علاوہ، یہ بھی ضروری ہے کہ آپ کو اس کے بارے میں مزید جاننے کی ضرورت ہے.

    • 3.线性回归

      لکیری رجعت رجعت کے لئے استعمال کیا جاتا ہے ، جس میں درجہ بندی کے لئے استعمال کیا جاتا ہے کے برعکس ، جس کا بنیادی خیال سب سے کم دو گنا کی شکل میں غلطی کے افعال کو بہتر بنانے کے لئے گرڈینٹ ڈس انفیکشن کا استعمال کرنا ہے ، اور یقینا آپ عام مساوات کا استعمال کرکے براہ راست پیرامیٹرز کا حل تلاش کرسکتے ہیں ، جس کا نتیجہ:

      img

      جبکہ LWLR (مقامی وزن میں لکیری واپسی) میں ، پیرامیٹرز کی حساب کا اظہار یہ ہے:

      img

      اس طرح سے یہ ظاہر ہوتا ہے کہ ایل ڈبلیو ایل آر ایل آر سے مختلف ہے ، ایل ڈبلیو ایل آر ایک غیر متغیر ماڈل ہے کیونکہ ہر بار جب regression computation کیا جاتا ہے تو تربیت کے نمونے میں کم از کم ایک بار جانا پڑتا ہے۔

      فوائد: آسان عملدرآمد، آسان حساب کتاب؛

      نقصانات: غیر لکیری ڈیٹا کو فٹ نہیں کر سکتے۔

    • 4.最近邻算法——KNN

      KNN قریب ترین ہمسایہ الگورتھم ہے جس کے بنیادی عمل یہ ہیں:

      1. تربیت کے نمونے اور ٹیسٹ کے نمونے میں ہر نمونے کے نقطہ کے فاصلے کا حساب لگائیں (عام فاصلے کی پیمائش میں یوروپی فاصلے ، مارٹج فاصلے وغیرہ شامل ہیں) ۔

      2. تمام فاصلے کی قیمتوں کو ترتیب دیں؛

      3. سب سے کم فاصلے کے k نمونے منتخب کریں؛

      4. اس نمونہ کے ٹیگ کے مطابق ووٹ ڈالیں اور حتمی درجہ بندی کیٹیگری حاصل کریں۔

      اعداد و شمار پر منحصر ہے کہ کس طرح ایک بہترین K قدر کا انتخاب کیا جائے گا۔ عام طور پر ، درجہ بندی کے وقت ایک بڑی K قدر شور کے اثرات کو کم کرتی ہے۔ لیکن زمرے کے مابین حدود کو دھندلا کردیتی ہے۔

      ایک بہتر K قدر مختلف انکشافاتی تکنیکوں کے ذریعہ حاصل کی جاسکتی ہے ، جیسے ، کراس تصدیق۔ اضافی شور اور غیر متعلقہ خصوصیت ویکٹر کی موجودگی K قریبی ہمسایہ الگورتھم کی درستگی کو کم کرتی ہے۔

      قریبی ہمسایہ الگورتھم کے نتائج میں زیادہ مستقل مزاجی ہوتی ہے۔ اعداد و شمار لامحدود ہونے کے ساتھ ساتھ ، الگورتھم کی غلطی کی ضمانت دو گنا سے زیادہ نہیں ہوتی ہے۔ کچھ اچھے K اقدار کے ل K ، قریبی ہمسایہ کی ضمانت کی غلطی کی شرح سے زیادہ نہیں ہوتی ہے۔

      KNN الگورتھم کے فوائد

      اس کے علاوہ ، یہ ایک بہت ہی آسان اور آسان طریقہ ہے جس میں آپ کو اپنے آپ کو ایک دوسرے کے ساتھ بانٹ سکتے ہیں ، اور آپ کو اپنے آپ کو ایک دوسرے کے ساتھ بانٹ سکتے ہیں۔ غیر لکیری درجہ بندی کے لئے استعمال کیا جا سکتا ہے؛ ٹریننگ وقت کی پیچیدگی O ((n) ہے؛ اعداد و شمار کے بارے میں کوئی مفروضہ نہیں ، اعلی درستگی اور آؤٹ لیئر کے لئے حساس نہیں ہے۔ نقائص

      بہت زیادہ کمپیوٹنگ۔ نمونہ عدم توازن کا مسئلہ (یعنی کچھ اقسام کے نمونے بہت زیادہ ہیں جبکہ دیگر نمونے بہت کم ہیں) ۔ اس کے علاوہ، یہ ایک بہت بڑا میموری کی ضرورت ہوتی ہے.

    • 5.决策树

      وضاحت کرنا آسان ہے۔ یہ کسی بھی قسم کی کشیدگی کے بغیر خصوصیات کے مابین تعاملات کو سنبھال سکتا ہے اور غیر پیرامیٹر ہے ، لہذا آپ کو غیر معمولی اقدار یا اعداد و شمار کو لکیری طور پر تقسیم کرنے کی فکر کرنے کی ضرورت نہیں ہے۔ مثال کے طور پر ، فیصلہ درخت آسانی سے کسی خصوصیت کے طول و عرض x کے اختتام پر زمرہ A ، وسط میں زمرہ B ، اور پھر زمرہ A کو نمایاں کریں گے جس میں خصوصیت کے طول و عرض x کے سامنے ہوتا ہے) ۔

      اس کا ایک نقصان یہ ہے کہ یہ آن لائن سیکھنے کی حمایت نہیں کرتا ہے ، لہذا نئے نمونے آنے کے بعد ، فیصلہ سازی کے درخت کو مکمل طور پر دوبارہ تعمیر کرنے کی ضرورت ہے۔

      ایک اور خرابی یہ ہے کہ فٹ ہونے کی آسانی ہے ، لیکن یہ انضمام کے طریقوں جیسے بے ترتیب جنگل آر ایف (یا درختوں کو فروغ دینے کے لئے درختوں کو فروغ دینا) کے لئے بھی ایک نقطہ ہے۔

      مزید برآں ، بے ترتیب جنگل اکثر درجہ بندی کے بہت سے مسائل کا فاتح ہوتا ہے (عام طور پر معاون ویکٹر سے تھوڑا سا بہتر) ، یہ تیز تر اور ایڈجسٹ کرنے کے قابل ہوتا ہے ، اور آپ کو ویکٹر کی حمایت کی طرح متعدد پیرامیٹرز کو ایڈجسٹ کرنے کے بارے میں فکر کرنے کی ضرورت نہیں ہے ، لہذا یہ پہلے بھی مقبول رہا ہے۔

      فیصلے کے درخت میں ایک اہم بات یہ ہے کہ کسی خاصیت کو شاخ کرنے کے لئے منتخب کیا جائے ، لہذا معلومات میں اضافے کے حساب کے فارمولے پر دھیان دیں اور اسے گہرائی سے سمجھیں۔

      انفارمیشن پینل کے حساب کے فارمولے مندرجہ ذیل ہیں:

      img

      جہاں n نمائندوں کے پاس n درجہ بندی کی اقسام ہیں (مثلاً فرض کریں کہ یہ دو قسم کے مسائل ہیں، تو n = 2) ؛ الگ الگ ان دو قسم کے نمونے کے مجموعی نمونے میں ظاہر ہونے کے امکانات p1 اور p2 کا حساب لگائیں، تاکہ غیر منتخب کردہ خصوصیت کی شاخ سے پہلے معلومات کی ٹوکری کا حساب لگایا جاسکے۔

      اب ایک خاصیت منتخب کی گئی ہے جس کا استعمال branching کے لئے کیا جاتا ہے ، اس وقت branching کے قواعد یہ ہیں: اگر x = vxi = v ، نمونہ کو درخت کی ایک شاخ میں تقسیم کریں۔ اگر یہ برابر نہیں ہے تو ، دوسری شاخ میں جائیں۔

      واضح طور پر ، شاخوں میں نمونہ دو زمروں پر مشتمل ہوسکتا ہے ، اور دونوں شاخوں کے لئے H1 اور H2 کا حساب لگایا جاسکتا ہے ، اور شاخوں کے بعد کل معلومات H1 = p1 H1 + p2 H2 کا حساب لگایا جاسکتا ہے ، تو اس وقت معلومات کا اضافہ ΔH = H - H ہے۔ معلومات کے اضافے کے اصول کے مطابق ، تمام خصوصیات کو ایک طرف رکھ کر ، سب سے زیادہ اضافہ کرنے والی خصوصیت کو اس شاخ کی خصوصیت کے طور پر منتخب کریں۔

      فیصلے کے درخت کے فوائد

      یہ آسان، سمجھنے میں آسان، اور وضاحت کرنے کے قابل ہے۔ نمونے جو ناقص خصوصیات کے ساتھ نمٹنے کے لئے مناسب ہیں؛ اس کے علاوہ ، آپ کو ان کے بارے میں مزید جاننے کی ضرورت ہے۔ یہ ایک نسبتا short مختصر وقت میں بڑے اعداد و شمار کے ذرائع پر قابل عمل اور موثر نتائج حاصل کرنے کے قابل ہے۔ نقائص

      (یہ بھی کہا جاتا ہے کہ جنگلوں میں بہت زیادہ کمی واقع ہوتی ہے) اس کے علاوہ ، یہ بھی کہا جاتا ہے کہ اعداد و شمار کے مابین وابستگی کو نظرانداز کیا جاتا ہے۔ ان اعداد و شمار کے لئے جن میں مختلف قسم کے نمونے کی تعداد متضاد ہوتی ہے ، فیصلے کے درخت میں ، معلومات کے اضافے کے نتائج زیادہ عددی خصوصیات کے ل bias ترجیح دیتے ہیں ((جب تک کہ معلومات کے اضافے کا استعمال کیا جاتا ہے ، اس میں یہ نقصان ہوتا ہے ، جیسے آر ایف) ۔

    • 5.1 موافقت

      اڈابوسٹ ایک مجموعی ماڈل ہے جس میں ہر ماڈل پچھلے ماڈل کی غلطی کی شرح پر مبنی ہوتا ہے ، غلطی کو تقسیم کرنے والے نمونے پر زیادہ توجہ دیتے ہیں ، اور صحیح درجہ بندی کرنے والے نمونے پر کم توجہ دیتے ہیں ، جو ایک بار پھر تکرار کے بعد ایک نسبتا better بہتر ماڈل حاصل کرنے کے ل. ہے۔ ایک عام بوسٹنگ الگورتھم ہے۔ اس کے فوائد اور نقصانات کا خلاصہ ذیل میں ہے۔

      فوائد

      adaboost ایک انتہائی درست درجہ بندی کرنے والا آلہ ہے۔ مختلف طریقوں سے ذیلی درجہ بندی کی تعمیر کی جاسکتی ہے۔ ایڈابوسٹ الگورتھم فریم ورک فراہم کرتا ہے۔ جب سادہ درجہ بندی کا استعمال کیا جاتا ہے تو ، حساب کتاب کے نتائج قابل فہم ہوتے ہیں ، اور کمزور درجہ بندی کی تعمیر انتہائی آسان ہے۔ یہ آسان ہے، آپ کو فیچر فلٹرنگ کی ضرورت نہیں ہے۔ اس کے علاوہ، یہ بھی ممکن ہے کہ آپ کو زیادہ سے زیادہ فٹ ہونے کی ضرورت ہو. رینڈم فارسٹ اور جی بی ڈی ٹی جیسے مجموعی الگورتھم کے بارے میں ، اس مضمون کو دیکھیں: مشین لرننگ - مجموعی الگورتھم کا خلاصہ

      نقصانات: outlier کے لئے زیادہ حساس

    • 6.SVM支持向量机

      اعلی صحت سے متعلق، overfitting سے بچنے کے لئے ایک اچھا نظریاتی ضمانت فراہم کرتا ہے، اور یہ کہ اعداد و شمار اصل خصوصیت کی جگہ میں لکیری طور پر ناقابل تقسیم ہیں، جب تک کہ ایک مناسب بنیادی تقریب دی جاتی ہے، یہ اچھی طرح سے کام کرتا ہے.

      خاص طور پر متحرک انتہائی اعلی جہتی متن کی درجہ بندی کے مسائل میں مقبول ہے۔ بدقسمتی سے میموری بہت زیادہ استعمال کرتی ہے ، اس کی وضاحت کرنا مشکل ہے ، چلانے اور ایڈجسٹ کرنے میں بھی کچھ پریشانی ہوتی ہے ، جبکہ بے ترتیب جنگل نے ان نقصانات سے بچنے کے لئے کافی حد تک عملی ہے۔

      فوائد اس کے علاوہ، یہ بھی ممکن ہے کہ آپ کو اعلی طول و عرض کے مسائل کو حل کرنے کی ضرورت ہے، یعنی بڑی خصوصیت کی جگہ. یہ غیر لکیری خصوصیات کے ساتھ بات چیت کرنے کے قابل ہے؛ اس کا مطلب یہ ہے کہ آپ کو اس کی ضرورت نہیں ہے. اس کے علاوہ، یہ بھی ممکن ہے کہ آپ کو عام کرنے کی صلاحیت کو بڑھانے کے لئے.

      نقائص جب بہت سے نمونے دیکھے جاتے ہیں تو کارکردگی زیادہ نہیں ہوتی۔ غیر لکیری مسائل کے لئے کوئی عمومی حل نہیں ہے ، اور بعض اوقات ایک مناسب نیوکل فنکشن تلاش کرنا مشکل ہوتا ہے۔ آپ کو اس کے بارے میں کیا خیال ہے؟ نکیلیوں کا انتخاب بھی ہنر مند ہے (لیب ایس وی ایم میں چار نکیلی افعال خود بخود آتے ہیں: لکیری نکیلی ، کثیر نکیلی ، آر بی ایف ، اور سگموڈ نکیلی):

      پہلی بات، اگر نمونہ کی تعداد نمایاں تعداد سے کم ہے تو، غیر لکیری نیوکلیئر کا انتخاب کرنے کی ضرورت نہیں ہے، سادہ لکیری نیوکلیئر کا استعمال کیا جا سکتا ہے.

      دوسرا، اگر نمونے کی تعداد خصوصیات کی تعداد سے زیادہ ہے، تو عام طور پر بہتر نتائج حاصل کرنے کے لئے اعلی طول و عرض پر نمونے کو نقشہ کرنے کے لئے غیر لکیری cores کا استعمال کیا جا سکتا ہے.

      تیسرا ، اگر نمونہ نمبر اور خصوصیت نمبر برابر ہیں تو ، اس صورت میں غیر لکیری جوہری استعمال کیا جاسکتا ہے ، جس کا اصول دوسرا ہے۔

      پہلی صورت میں، اعداد و شمار کو پہلے کم کرنے کے بعد غیر لکیری cores کا استعمال کیا جا سکتا ہے، جو بھی ایک طریقہ ہے.

    • 7. مصنوعی نیورل نیٹ ورک کے فوائد اور نقصانات

      آئی این این کے فوائد: درجہ بندی کی اعلی درستگی؛ ہم آہنگی میں تقسیم شدہ پروسیسنگ ، تقسیم شدہ اسٹوریج اور سیکھنے کی صلاحیتوں کے ساتھ ، شور کے اعصاب کے لئے مضبوط روبوٹ اور غلطی کی صلاحیت ہے، جو پیچیدہ غیر لکیری تعلقات کو مکمل طور پر قریب لاتا ہے. اس کے علاوہ، اس کے ساتھ ساتھ، اس کے ساتھ ساتھ، اس کے ساتھ ساتھ، اس کے ساتھ ساتھ، اس کے ساتھ ساتھ.

      آئی این این کے نقصانات: نیورل نیٹ ورکس کو بہت سارے پیرامیٹرز کی ضرورت ہوتی ہے ، جیسے نیٹ ورک ٹاپولوجیکل ڈھانچہ ، وزن اور حد کی ابتدائی قیمت۔ سیکھنے کے عمل کو مشاہدہ نہیں کیا جاسکتا ، نتائج کی وضاحت کرنا مشکل ہے ، جس سے نتائج کی وشوسنییتا اور قبولیت متاثر ہوتی ہے۔ اس کے علاوہ ، یہ بھی ممکن ہے کہ آپ کو اس کے بارے میں مزید جاننے کی ضرورت نہیں ہے۔

    • 8، K-Means گروپ

      میں نے پہلے ایک مضمون لکھا تھا K-Means کلیئرنگ کے بارے میں، جس کا بلاگ لنک: مشین لرننگ الگورتھم - K-means کلیئرنگ؛ K-Means کے بارے میں انکشاف، جس میں بہت مضبوط EM خیالات ہیں۔

      فوائد یہ الگورتھم آسان اور قابل عمل ہے۔ بڑے اعداد و شمار کے سیٹ پر کام کرنے کے لئے ، یہ الگورتھم نسبتا scale توسیع پذیر اور موثر ہے کیونکہ اس کی پیچیدگی تقریبا O ((nkt) ہے ، جہاں n تمام اشیاء کی تعداد ہے ، k انجکشن کی تعداد ہے ، اور t تکرار کی تعداد ہے۔ عام طور پر k < < n. یہ الگورتھم عام طور پر مقامی طور پر متضاد ہے۔ < p=""> الگورتھم کوشش کرتا ہے کہ وہ k تقسیموں کو تلاش کرے جو مربع غلطی فنکشن کی قدر کو کم سے کم کرتی ہیں۔ گروپ بندی کا اثر بہتر ہوتا ہے جب چٹانیں گھنے ، گول یا گرڈ شکل کی ہوتی ہیں ، اور چٹانوں اور چٹانوں میں واضح فرق ہوتا ہے۔

      نقائص اعداد و شمار کی قسم کے لئے اعلی ضروریات، عددی اعداد و شمار کے لئے موزوں؛ ممکنہ طور پر مقامی طور پر کم سے کم اور بڑے پیمانے پر ڈیٹا پر آہستہ آہستہ. اس کے علاوہ ، یہ بھی کہا جاتا ہے کہ یہ ایک بہت بڑا مسئلہ ہے۔ ابتدائی اقدار کے لئے حساس، مختلف ابتدائی اقدار کے لئے مختلف گروپ بندی کے نتائج کا سبب بن سکتا ہے؛ اس طرح کی تصاویر کو دیکھنے کے لئے یہ مناسب نہیں ہے کہ ان کی سائز میں بہت زیادہ فرق ہے۔ اس طرح کے اعداد و شمار کی ایک چھوٹی سی تعداد میں اوسط پر بہت زیادہ اثر پڑ سکتا ہے کیونکہ یہ ہائبرڈ شور ہائبرڈ اور الگ تھلگ نقطہ کے اعداد و شمار کے لئے حساس ہے۔

      الگورتھم کا انتخاب

      اس سے پہلے میں نے کچھ غیر ملکی مضامین کا ترجمہ کیا تھا اور ایک مضمون میں ایک سادہ الگورتھم کا انتخاب کرنے کی ترکیب دی گئی تھی:

      اس کا پہلا انتخاب منطقی رجعت ہونا چاہئے۔ اگر اس کا اثر اچھا نہیں ہے تو ، اس کے نتائج کو بطور حوالہ استعمال کیا جاسکتا ہے ، جس کی بنیاد پر دوسرے الگورتھم کے ساتھ موازنہ کیا جاسکتا ہے۔

      اس کے بعد فیصلہ کرنے والے درخت (Random Forest) کو آزمائیں اور دیکھیں کہ کیا آپ اپنے ماڈل کی کارکردگی کو نمایاں طور پر بڑھا سکتے ہیں۔ یہاں تک کہ اگر آپ نے اسے حتمی ماڈل کے طور پر استعمال نہیں کیا ہے تو ، آپ رینڈم جنگل کو شور متغیر کو ہٹانے اور خصوصیت کا انتخاب کرنے کے لئے استعمال کرسکتے ہیں۔

      اگر خصوصیات کی تعداد اور مشاہداتی نمونے خاص طور پر زیادہ ہیں تو ، جب وسائل اور وقت کافی ہوتے ہیں (یہ شرط اہم ہے) تو ایس وی ایم کا استعمال کرنا ایک آپشن ہے۔

      عام طور پر: GBDT>=SVM>=RF>=Adaboost>=Other... ، گہری سیکھنے اب بہت مشہور ہے، بہت سے شعبوں میں استعمال کیا جاتا ہے، یہ اعصابی نیٹ ورک پر مبنی ہے، اس وقت میں خود بھی سیکھ رہا ہوں، لیکن نظریاتی علم بہت موٹا نہیں ہے، سمجھنے کے لئے کافی گہری نہیں ہے، یہاں اس کا تعارف نہیں کیا جائے گا۔

      اگرچہ الگورتھم اہم ہیں ، لیکن اچھے اعداد و شمار اچھے الگورتھم سے بہتر ہیں ، اور اچھی خصوصیات ڈیزائن کرنا بہت فائدہ مند ہے۔ اگر آپ کے پاس بہت بڑا ڈیٹا سیٹ ہے تو ، آپ جس بھی الگورتھم کا استعمال کرتے ہیں اس سے درجہ بندی کی کارکردگی پر زیادہ اثر نہیں پڑ سکتا ہے۔ (اس وقت آپ رفتار اور آسانی کے مطابق انتخاب کرسکتے ہیں) ۔

  • حوالہ جات


مزید