الفا کتے کا آلہ: مونٹی کارلو الگورتھم، پڑھ کر سمجھ جائیں گے!

مصنف:چھوٹا سا خواب, تخلیق: 2016-11-02 13:03:03, تازہ کاری: 2016-11-02 13:11:30

الفا کتے کا ٹول: مونٹی کارلو الگورتھم، پڑھ کر سمجھ جائیں گے!

اس سال 9-15 مارچ کو ، گوگی کی دنیا میں ایک بڑا واقعہ پیش آیا ، جس میں سیئول ، جنوبی کوریا میں پانچ راؤنڈ کی انسانی اور مشین کی جنگ کا انعقاد کیا گیا۔ اس مقابلے کا نتیجہ انسانوں کی شکست تھی، ورلڈ گوئے چیمپئن لی شی شی شیتھ نے گوگل کمپنی کے مصنوعی ذہانت کے پروگرام الفاگو کو 1-4 سے حتمی شکست دی تھی۔ تو پھر الفاگو کیا ہے اور جیتنے کی کلید کہاں ہے؟ یہاں ہم ایک الگورتھم کے بارے میں بات کریں گے: مونٹی کارلو الگورتھم۔

  • الفاگو اور مونٹی کارلو الگورتھم

چین کے شنگھائی ایجنسی کی رپورٹ کے مطابق، الفاگو پروگرام، جو کہ چینی شطرنج کے شائقین کی طرف سے طنز کے طور پر جانا جاتا ہے، گوگل کمپنی کے ماتحت امریکی ٹیم ڈیپ مائنڈ کی طرف سے تیار کردہ ایک انسان روبوٹ کے خلاف گڑبڑ کا پروگرام ہے۔

پچھلے مضمون میں ہم نے گوگل کی جانب سے خود مختار سیکھنے کے لیے تیار کیے جانے والے نیورل نیٹ ورک الگورتھم کے بارے میں بات کی تھی، جس میں الفاگو بھی شامل ہے۔

چائنا آٹومیشن ایسوسی ایشن کے نائب صدر ، سیکرٹری جنرل وانگ فائی یو نے کہا کہ پروگرامرز کو گوئے کے بنیادی اصولوں کو جاننے کی ضرورت نہیں ہے۔ الفاگو کے پیچھے کمپیوٹر سائنسدانوں کا ایک عمدہ گروپ ہے ، جو مشین لرننگ کے شعبے میں ماہر ہیں۔ سائنسدانوں نے اعصابی نیٹ ورک کے الگورتھم کا استعمال کرتے ہوئے ، شطرنج کے ماہرین کے میچ ریکارڈ کو کمپیوٹر میں داخل کیا ، اور کمپیوٹر کو خود ہی مقابلہ کرنے دیا ، اس عمل میں مسلسل تربیت حاصل کی۔ ایک طرح سے ، یہ کہا جاسکتا ہے کہ الفاگو کا شطرنج اسے ڈویلپر نے نہیں سکھایا تھا ، بلکہ اس نے خود ہی سیکھا تھا۔

تو پھر الفاگو کو خود سیکھنے کی کلید کہاں ہے؟ یہ مونٹی کارلو الگورتھم ہے۔

مونٹی کارلو الگورتھم کیا ہے؟مونٹی کارلو الگورتھم کی ایک عام وضاحت یہ ہے: اگر ٹوکری میں ایک ہزار سیب ہیں، تو آپ اپنی آنکھیں بند کرکے ہر بار سب سے بڑے کو چن سکتے ہیں، اور آپ کی تعداد محدود نہیں ہے۔ لہذا، آپ اپنی آنکھیں بند کرکے ایک کو منتخب کر سکتے ہیں، پھر ایک کو پہلے کے مقابلے میں منتخب کر سکتے ہیں، اور پھر ایک کو منتخب کر سکتے ہیں، اور پھر ایک کو منتخب کر سکتے ہیں، اور پھر ایک کو منتخب کر سکتے ہیں، اور پھر ایک کو منتخب کر سکتے ہیں.

اس کا مطلب یہ ہے کہ مونٹی کارلو الگورتھم یہ ہے کہ زیادہ نمونہ، زیادہ سے زیادہ بہترین حل ملتا ہے، لیکن اس کا کوئی ضمانت نہیں ہے، کیونکہ اگر آپ کے پاس 10،000 مکھیاں ہیں، تو آپ کو شاید زیادہ مل جائے گا.

اس کے ساتھ موازنہ لاس ویگاس کے الگورتھم سے کیا جاسکتا ہے: عام طور پر کہا جاتا ہے کہ اگر ایک تالے میں ایک ہزار چابیاں ہیں ، لیکن صرف ایک ہی صحیح ہے۔ لہذا ہر بار جب آپ کسی بھی طرح سے ایک چابیاں لینے کی کوشش کرتے ہیں تو ، آپ اسے نہیں کھول سکتے ہیں تو ، آپ کو ایک اور تبدیل کرنا پڑتا ہے۔ کوششوں کی تعداد زیادہ ہوتی ہے ، کھولنے کا بہترین موقع زیادہ ہوتا ہے ، لیکن کھولنے سے پہلے ، غلط چابیاں بیکار رہتی ہیں۔

لہذا لاس ویگاس الگورتھم بہترین حل ہے، لیکن یہ نہیں مل سکتا۔ فرض کریں کہ 1000 میں سے کوئی بھی کلید نہیں ہے، اور اصل کلید 1001 ہے، لیکن نمونہ میں 1001 الگورتھم نہیں ہے، لہذا لاس ویگاس الگورتھم کو اس کی کلید نہیں مل سکتی ہے۔

الفاگو کا مونٹی کارلو الگورتھمگوگا کھیل کا مشکل AI کے لئے خاص طور پر بڑا ہے ، کیونکہ گوگا کھیل میں بہت سارے راستے ہیں ، اور کمپیوٹر کو ان کا تعین کرنا مشکل ہے۔ وانگ فائیو نے کہا: اوہ ، سب سے پہلے ، گوگی کے امکانات بہت زیادہ ہیں۔ گوگی کے ہر مرحلے کے امکانات بہت زیادہ ہیں ، جب کھلاڑی شروع ہوتا ہے تو 19 × 19 = 361 مختلف قسم کے ڈوبے کا انتخاب ہوتا ہے۔ گوگی کے 150 راؤنڈ کے ایک دور میں 10،170 مختلف قسم کے حالات پیدا ہوسکتے ہیں۔ دوسرا ، قوانین بہت نازک ہیں ، اور کسی حد تک ڈوبے کا انتخاب تجربے کے جمع ہونے پر مبنی ہے جو انترجشتھان پر مبنی ہے۔ اس کے علاوہ ، گوگی کے شطرنج میں ، کمپیوٹر کے لئے اس وقت کے شطرنج کے حریفوں اور کمزوروں کو الگ کرنا مشکل ہے۔ لہذا ، گوگی چیلنج کو مصنوعی ذہانت کا ایپل پلاننگ چیلنج کہا جاتا ہے۔

اور الفاگو صرف ایک مونٹی کارلو الگورتھم نہیں ہے ، بلکہ وہ مونٹی کارلو الگورتھم کا ایک اپ گریڈ ہے۔

الفاگو نے مونٹی کارلو ٹری سرچ الگورتھم اور دو گہرے نیورل نیٹ ورکس کے تعاون سے شطرنج کو مکمل کیا ہے۔ لیشی اسٹون کے خلاف مقابلہ سے پہلے ، گوگل نے پہلے انسانوں کے خلاف تقریبا 30 ملین چالوں کے ساتھ گڑیا الفا گڑیا کے اعصابی نیٹ ورک کو تربیت دی ، تاکہ وہ یہ سیکھ سکے کہ انسانی ماہر شطرنج کھلاڑی کس طرح گرتا ہے۔ اس کے بعد ، اس سے آگے بڑھنے کے لئے ، الفاگو کو خود ہی خود سے شطرنج کھیلنے دیں ، جس سے بڑے پیمانے پر ایک نیا شطرنج پیدا ہوتا ہے۔ گوگل کے انجینئروں نے دعوی کیا ہے کہ الفاگو روزانہ ایک ملین چالوں کا تجربہ کرسکتا ہے۔

ان کے کام میں تعاون کرنا شامل ہے کہ وہ زیادہ امید افزا چالوں کو منتخب کریں ، واضح غلطیوں کو چھوڑ دیں ، اور اس طرح حساب کتاب کو کنٹرول کریں جو کمپیوٹر کر سکتے ہیں۔ یہ بنیادی طور پر وہی ہے جو انسانی شطرنج کھلاڑی کرتے ہیں۔

چائنا اکیڈمی آف سائنسز کے آٹومیشن انسٹی ٹیوٹ کے محقق ایو یین چانگ نے کہا کہ روایتی شطرنج سافٹ ویئر ، جو عام طور پر شدید تلاش کا استعمال کرتا ہے ، بشمول گہرے نیلے رنگ کے کمپیوٹرز ، یہ تمام ممکنہ نتائج کے لئے تلاش کا درخت بناتا ہے (ہر نتیجہ درخت پر ایک پھل ہے) ، اور ضرورت کے مطابق تلاش کرتا ہے۔ یہ طریقہ شطرنج ، جمپ شطرنج وغیرہ میں بھی قابل عمل ہے ، لیکن گوگی کے لئے قابل عمل نہیں ہے ، کیونکہ گوگی میں ہر 19 لائنوں کو گھومنے کی وجہ سے ، گرنے کا امکان اتنا زیادہ ہے کہ کمپیوٹر اس درخت کے پھلوں کو تعمیر نہیں کرسکتا (بہت زیادہ) تاکہ گھومنے کی تلاش ممکن ہو۔ الفا گو نے ایک بہت ہی ہوشیار طریقہ اپنایا ، جس نے اس مسئلے کو حل کیا ہے۔ اس کے گہرے سیکھنے کے طریقہ کار کا استعمال کرتے ہوئے تلاش کے درخت کی پیچیدگی کو کم کیا گیا ہے ، تلاش کی جگہ کو مؤثر طریقے سے کم کیا گیا ہے۔ مثال کے طور پر ، حکمت عملی کے مطابق ، سرچ نیٹ ورک کی ہدایات کو تلاش کرنے کے لئے زیادہ ذمہ دار ہے جیسے انسان

ڈونگاچی نے مزید وضاحت کی کہ گہری نیورل نیٹ ورک کا بنیادی یونٹ ہمارے انسانی دماغوں کی طرح ہے، جس میں بہت سی پرتیں منسلک ہیں جیسے کہ انسانی دماغ کا نیورل نیٹ ورک۔ الفاگو کے دو نیورل نیٹ ورکس دماغ کے حصوں میں حکمت عملی کے نیٹ ورک اور تشخیص کے نیٹ ورک ہیں.

چیکنگ کی حکمت عملی کا نیٹ ورک بنیادی طور پر چیکنگ کی حکمت عملی پیدا کرنے کے لئے استعمال کیا جاتا ہے۔ چیکنگ کے دوران ، یہ اس بارے میں نہیں سوچتا ہے کہ اسے کیا کرنا چاہئے ، بلکہ یہ سوچتا ہے کہ انسانوں کے ماہرین کو کیا کرنا چاہئے۔ یعنی ، یہ ان پٹ کی بنیاد پر پیش گوئی کرے گا کہ چیکنگ کا اگلا مرحلہ کہاں ہوگا ، جس میں انسانی سوچ کے مطابق چند قابل عمل اقدامات پیش کیے جائیں گے۔

تاہم ، اسٹریٹجک نیٹ ورک کو اس بات کا یقین نہیں ہے کہ اس کا فیصلہ کیا جائے گا کہ آیا یہ اچھا ہے یا برا ، یہ صرف یہ جانتا ہے کہ آیا یہ انسانوں کی طرح ہی ہے ، اس وقت اس نیٹ ورک کو کام کرنے کے لئے اس کی قدر کرنے کی ضرورت ہے۔

مونٹی کارلو نے کہا: "بڑے پیمانے پر جائزہ لینے والے نیٹ ورک ہر ممکن طریقہ کار کے لئے پورے پلیٹ کی صورتحال کا اندازہ کرتے ہیں اور پھر جیت کی شرح جیت دیتے ہیں۔ یہ اقدار مونٹی کارلو ٹری سرچ الگورتھم میں واپس آتی ہیں ، جو مندرجہ بالا عمل کو دہرانے کے ذریعہ جیت کی شرح جیت کا بہترین راستہ پیش کرتی ہیں۔ مونٹی کارلو ٹری سرچ الگورتھم نے طے کیا ہے کہ اسٹریٹجک نیٹ ورک صرف اس جگہ پر جیت کی شرح جیت کی اعلی سطح پر جاری رہے گا ، تاکہ کچھ راستوں کو ترک کیا جاسکے ، اور کسی بھی راستے کو سیاہ تک نہیں پہنچایا جاسکے۔ "

الفاگو ان دونوں ٹولز کا استعمال حالات کا تجزیہ کرنے اور ہر اگلی حکمت عملی کے فوائد اور نقصانات کا فیصلہ کرنے کے لئے کرتا ہے ، جس طرح ایک انسانی شطرنج کھلاڑی موجودہ صورتحال کا اندازہ لگاتا ہے اور مستقبل کے حالات کا اندازہ لگاتا ہے۔ مونٹی کارلو ٹری سرچ الگورتھم کا استعمال کرتے ہوئے تجزیہ کیا جاتا ہے ، مثال کے طور پر ، اگلے 20 مراحل میں ، یہ فیصلہ کیا جاسکتا ہے کہ اگلے مرحلے میں جیتنے کا امکان زیادہ ہے۔

تاہم ، اس میں کوئی شک نہیں ہے کہ مونٹی کارلو الگورتھم الفاگو کے مرکز میں سے ایک ہے۔

دو چھوٹے تجربات آخر میں مونٹی کارلو الگورتھم کے دو چھوٹے تجربات دیکھیں۔

  • 1.计算圆周率pi。

اصول: پہلے ایک مربع ڈرائنگ کریں، اس کے اندرونی دائرے کو ڈرائنگ کریں، پھر اس مربع کے اندر ایک بے ترتیب نقطہ ڈرائنگ کریں، اور اس کے اندرونی دائرے میں واقع ہونے والے نقطہ کو ترتیب دیں، P = دائرہ / مربع کا علاقہ۔ P= ((Pi)RR) / ((2R*2R) = Pi/4، یعنی Pi=4P

اقدامات: 1. دائرے کے مرکز کو اصل نقطہ پر رکھیں اور دائرے کو اس کے رداس کے طور پر R بنائیں ، پھر پہلے مربع کا ایک چوتھائی دائرے کا رقبہ Pi ہےRR/4 2۔ اس 1/4 دائرے کے بیرونی مربع کو بنائیں، جس کے نقاط ہیں ((0,0) ((0,R) ((R,0) ((R,R) ، تو اس مربع کا رقبہ R ہے۔R 3۔ موقع پر نقطہ ((X، Y) لینا، جس سے 0<= X<= R اور 0<= Y<= R، یعنی نقطہ مربع کے اندر ہے 4، فارمولہ X کے ذریعےX+YYR کا فیصلہ یہ ہے کہ آیا نقطہ 1/4 دائرے کے اندر ہے۔ 5۔ تمام پوائنٹس (یعنی تجربات کی تعداد) کی تعداد N مقرر کریں، اور 1/4 دائرے کے اندر پوائنٹس (یعنی مرحلہ 4 کو پورا کرنے والے پوائنٹس) کی تعداد M ہے،

P=M/N، تو Pi=4*N/Mimgتصویر 1

M_C ((10000) چلانے کا نتیجہ 3.1424 ہے۔

  • 2.蒙特卡洛模拟求函数极值,可避免陷入局部极值

# [-2,2] پر ایک نمبر کو بے ترتیب طور پر پیدا کریں، اس کے مطابق y تلاش کریں، اور اس میں سب سے بڑا تلاش کریں جو [-2,2] پر فنکشن کا سب سے بڑا قدر ہےimgتصویر 2

ایک ہزار بار کی مشابہت کے بعد ایک بہت بڑی قیمت ملی 185.12292832389875 ((بہت درست)

آپ کو یہ سمجھ میں آتا ہے۔ آپ کوڈ کو ہاتھ سے لکھ سکتے ہیں۔ یہ بہت دلچسپ ہے! ویکیپیڈیا پبلک نمبر سے نقل کیا گیا


مزید