আলফাগোর অস্ত্র: মন্টে কার্লো অ্যালগরিদম, এটি পড়ার পর তুমি বুঝতে পারবে! (কোড উদাহরণ সহ)--পুনঃমুদ্রণ

发明者量化-小小梦

ফোকাস ব্যক্তিগত বার্তা

ফোকাস

1283

অনুসারী

আলফাগোর অস্ত্র: মন্টে কার্লো অ্যালগরিদম, এটি পড়ার পর তুমি বুঝতে পারবে! (কোড উদাহরণ সহ)--পুনঃমুদ্রণ

তৈরি: 2016-11-02 13:03:03, আপডেট করা হয়েছে: 2016-11-02 13:11:30

23741

আলফা কুকুরের দক্ষতাঃ মন্টেকার্লো অ্যালগরিদম, দেখুন এবং বুঝুন!

গত ৯-১৫ মার্চ, দক্ষিণ কোরিয়ার সিউলে পাঁচ রাউন্ডের মানব-মেশিন যুদ্ধের মাধ্যমে গো-ওয়ে বিশ্বকে একটি বড় ঘটনা দেখিয়েছিল। এই প্রতিযোগিতার ফলাফল ছিল একটি মানবিক পরাজয়, যেখানে বিশ্ব গোয়া চ্যাম্পিয়ন লি শি-শিকে গুগলের কৃত্রিম বুদ্ধিমত্তা প্রোগ্রাম আলফা গোকে ১-৪ গোলে পরাজিত করা হয়। সুতরাং, আলফাগো কী এবং এর বিজয়ী কী? এখানে আমরা একটি অ্যালগরিদম সম্পর্কে কথা বলবঃ মন্টেকার্লো অ্যালগরিদম।

### আলফাগো এবং মন্টেকার্লো অ্যালগরিদম

আলফাগো হচ্ছে গুগল-এর ডিপমাইন্ড টিম কর্তৃক নির্মিত একটি কম্পিউটার-মানুষের মধ্যে গোই খেলার প্রোগ্রাম। চীনা খেলোয়াড়রা একে আলফা কুকুর বলে অভিহিত করে।

গত পোস্টে আমরা গুগলের তৈরি করা নিউরাল নেটওয়ার্ক অ্যালগরিদমের কথা বলেছিলাম, যা মেশিনকে স্বয়ংক্রিয়ভাবে শিখতে সাহায্য করবে, যেমন আলফাগো।

চীনা অটোমেশন অ্যাসোসিয়েশনের ভাইস প্রেসিডেন্ট ও সেক্রেটারি জেনারেল ওয়াং ফাইয়ুয়ে বলেন, প্রোগ্রামারদের গোগো খেলার ব্যাপারে দক্ষ হওয়ার প্রয়োজন নেই, শুধু গোগো খেলার মৌলিক নিয়মগুলো জানতে হবে। আলফা-গো এর পেছনে রয়েছেন একদল বিশিষ্ট কম্পিউটার বিজ্ঞানী, যারা মেশিন লার্নিংয়ের ক্ষেত্রে বিশেষজ্ঞ। বিজ্ঞানীরা নিউরাল নেটওয়ার্ক অ্যালগরিদম ব্যবহার করে কম্পিউটারে দাবা বিশেষজ্ঞদের ম্যাচের রেকর্ড ইনপুট করে এবং কম্পিউটারকে নিজের সাথে খেলতে দেয়, এই প্রক্রিয়ায় ক্রমাগত প্রশিক্ষণ দেয়। এক অর্থে বলা যেতে পারে, আলফা-গো এর দাবা কৌশলটি বিকাশকারী দ্বারা শেখানো হয়নি, বরং এটি স্ব-শিক্ষিত প্রতিভা।

সুতরাং, আলফা-গো-র স্ব-শিক্ষিত প্রতিভা তৈরির মূল চাবিকাঠি কোথায়? এটি মন্টেকার্লো অ্যালগরিদম।

মন্টে কার্লো অ্যালগরিদম কি? মন্টে কার্লো অ্যালগরিদমের ব্যাখ্যাঃ যদি একটি ঝুড়ির মধ্যে ১০০০টি আপেল থাকে, এবং আপনি প্রতিবার চোখ বন্ধ করে সবচেয়ে বড় আপেলটি খুঁজে বের করতে চান, তাহলে আপনি কোন সীমা নির্ধারণ করতে পারবেন না। সুতরাং আপনি চোখ বন্ধ করে এলোমেলোভাবে একটিকে বেছে নিতে পারেন, তারপর এলোমেলোভাবে অন্যটিকে তুলনা করতে পারেন, বড়টি রেখে, তারপর আরেকটি এলোমেলোভাবে, তারপর আগেরটির সাথে তুলনা করুন, তারপর বড়টি রেখে। এই চক্রটি এভাবেই চলতে থাকে, যত বেশি বার নেওয়া হয়, ততই সবচেয়ে বড় আপেলটি বেছে নেওয়ার সম্ভাবনা বাড়তে থাকে, কিন্তু যদি না আপনি ১০০০টি আপেলের মধ্যে থেকে একটি বেছে নেন, তাহলে আপনি নিশ্চিত হতে পারবেন না যে শেষ পর্যন্ত সবচেয়ে বড় আপেলটি বেছে নেবেন।

অর্থাৎ, মন্টে কার্লো অ্যালগরিদমের মতে, যত বেশি নমুনা, ততই ভালো সমাধান পাওয়া যায়, কিন্তু তা নিশ্চিত নয়, কারণ যদি ১০,০০০টি আপেল থাকে, তাহলে সম্ভবত আরও বড় সমাধান পাওয়া যাবে।

লাস ভেগাসের অ্যালগরিদমের সাথে তার তুলনা করা যায়ঃ সাধারণভাবে বলা হয়, যদি একটি তালা থাকে, তবে ১০০০ টি চাবি বেছে নেওয়ার জন্য রয়েছে, তবে কেবলমাত্র একটিই সঠিক। সুতরাং, প্রতিবার যখন আপনি এলোমেলোভাবে একটি চাবি নিয়ে চেষ্টা করেন এবং এটি খুলতে ব্যর্থ হন, তখন আপনি একটি পরিবর্তন করেন। যত বেশি চেষ্টা, সর্বোত্তম সমাধান খোলার সম্ভাবনা তত বেশি, তবে খোলার আগে, ভুল কীগুলি কোনও কাজে আসে না।

সুতরাং লাস ভেগাস অ্যালগরিদম হল সর্বোত্তম সমাধান, কিন্তু এটি খুঁজে পাওয়া অসম্ভব। ধরুন যে 1000 টি চাবি থেকে কোনওটিই খোলা যায় না, আসল চাবিটি 1001 তম চাবি, কিন্তু নমুনাটিতে 1001 তম অ্যালগরিদম নেই, লাস ভেগাস অ্যালগরিদম লক খোলার জন্য কোনও কী খুঁজে পাবে না।

আলফা-গো এর মন্টেকার্লো অ্যালগরিদম গো খেলার জটিলতা বিশেষ করে কৃত্রিম বুদ্ধিমত্তার জন্য বড়, কারণ গো খেলার অনেকগুলি প্যাচ রয়েছে যা কম্পিউটারের পক্ষে পার্থক্য করা কঠিন। প্রথমত, গোয়ের সম্ভাবনা অনেক বেশি। গোয়ের প্রতিটি পদক্ষেপের সম্ভাব্য সিদ্ধান্তগুলি অনেক বেশি, যখন একজন খেলোয়াড় শুরু করেন তখন 19 × 19 = 361 টি ড্রপ নির্বাচন করতে পারে। একটি 150 রাউন্ডের গোয়ের সম্ভাব্য পরিস্থিতি 10170 পর্যন্ত হতে পারে। দ্বিতীয়ত, নিয়মটি খুব সূক্ষ্ম, কিছু পরিমাণে ড্রপ নির্বাচন করা অভিজ্ঞতার উপর নির্ভর করে। তদুপরি, গোয়ের দাবাতে, কম্পিউটারের পক্ষে সামনের দাবাটির শক্তি এবং দুর্বলতা আলাদা করা খুব কঠিন। তাই, গোয়ের চ্যালেঞ্জকে কৃত্রিম বুদ্ধিমত্তার অ্যাপোলো পরিকল্পনা বলা হয়।

আলফাগো শুধু মন্টে কার্লো অ্যালগরিদম নয়, বরং এটি মন্টে কার্লো অ্যালগরিদমের একটি আপগ্রেড সংস্করণ।

আলফা-গো মন্টে কার্লো ট্রি সার্চ অ্যালগরিদম এবং দুটি গভীরতার নিউরাল নেটওয়ার্কের মাধ্যমে দাবা খেলায় অংশগ্রহণ করে। লি শি শি-এর সাথে লড়াইয়ের আগে, গুগল প্রথমে আলফা কুকুরের নিউরাল নেটওয়ার্ককে প্রায় ৩০ মিলিয়ন মানুষের জোড়া হাঁটার কৌশল ব্যবহার করে প্রশিক্ষণ দেয়, যাতে এটি মানব পেশাদার দাবা খেলোয়াড়দের কীভাবে পরাজিত হবে তা ভবিষ্যদ্বাণী করতে পারে। তারপরে আরও এগিয়ে, আলফা-গোকে নিজের সাথে দাবা খেলতে দেওয়া, যার ফলে বিশাল আকারের একটি নতুন দাবা খেলার চিত্র তৈরি হয়। গুগলের প্রকৌশলীরা ঘোষণা করেছিলেন যে আলফা-গো প্রতিদিন কয়েক মিলিয়ন পদক্ষেপের চেষ্টা করতে পারে।

“এটি মূলত একটি মানব খেলোয়াড়ের কাজ”, চীনা বিজ্ঞান একাডেমির অটোমেশন ইনস্টিটিউটের ডক্টরাল স্নাতক স্নাতক জিয়াও গাজী বলেন।

চীনা বিজ্ঞান একাডেমির অটোমেশন ইনস্টিটিউটের গবেষক ইইয়ান ইয়ান বলেছেন যে, চিয়াংয়ের traditionalতিহ্যবাহী দাবা সফ্টওয়্যার সাধারণত হিংসাত্মক অনুসন্ধান ব্যবহার করে, যার মধ্যে রয়েছে গভীর নীল কম্পিউটার, এটি সমস্ত সম্ভাব্য ফলাফলের জন্য একটি অনুসন্ধান গাছ তৈরি করে (প্রতিটি ফলাফল গাছের একটি ফল) এবং প্রয়োজন অনুসারে অনুসন্ধান অনুসন্ধান করে। এই পদ্ধতিটি দাবা, জাম্পিং ইত্যাদির ক্ষেত্রেও কিছুটা কার্যকর, তবে গোগোর ক্ষেত্রে এটি কার্যকর হতে পারে না, কারণ গোগো 19 টি লাইন অতিক্রম করে এবং ড্রপসের সম্ভাবনা এত বেশি যে কম্পিউটারটি গাছটি তৈরি করতে পারে না (অনেক ফল) । আলফাগো একটি চতুর পদ্ধতি অবলম্বন করে এবং এই সমস্যাটি পুরোপুরি সমাধান করে। এটি গভীর শিক্ষার পদ্ধতি ব্যবহার করে গাছের অনুসন্ধানের জটিলতা হ্রাস করে এবং অনুসন্ধান স্থানটি কার্যকরভাবে কমিয়ে দেয়।

বুনগাজ আরও ব্যাখ্যা করেছেন যে গভীরতার নিউরাল নেটওয়ার্কের সবচেয়ে মৌলিক এককটি আমাদের মানব মস্তিষ্কের নিউরনের মতো, অনেকগুলি স্তর সংযুক্ত রয়েছে যেন এটি মানব মস্তিষ্কের নিউরাল নেটওয়ার্ক। আলফাগো এর দুটি নিউরাল নেটওয়ার্ক হ’ল কৌশল নেটওয়ার্ক এবং মূল্যায়ন নেটওয়ার্ক।

কুইজ কৌশল নেটওয়ার্কটি মূলত পরাজয়ের কৌশল তৈরির জন্য ব্যবহৃত হয়। দাবা খেলার সময়, এটি নিজের কী হওয়া উচিত তা বিবেচনা করে না, তবে মানুষের উচ্চ হাতটি কী হবে তা নিয়ে চিন্তা করে। অর্থাৎ, এটি ইনপুট প্লেটের বর্তমান অবস্থার উপর ভিত্তি করে ভবিষ্যদ্বাণী করে যে মানব পরবর্তী দাবা খেলবে এবং মানুষের চিন্তার সাথে সবচেয়ে মিলিত কয়েকটি কার্যকর সিদ্ধান্ত নিয়ে আসে।

তবে, কৌশল নেটওয়ার্কটি জানে না যে এটি কতটা ভাল বা খারাপ হবে, এটি কেবল জানে যে এটি মানুষের মতোই হবে কিনা, এবং এই ক্ষেত্রে মূল্যায়ন নেটওয়ার্কটি কাজ করে।

বুনগ্যাজি বলেছেনঃ ক্যালকুলেটর নেটওয়ার্কটি প্রতিটি সম্ভাব্য বিকল্পের জন্য সমগ্র ডিসপ্লেটি মূল্যায়ন করে এবং তারপরে একটি জয়ের হার দেয়। এই মানগুলি মন্টেকার্লো ট্রি অনুসন্ধান অ্যালগরিদমের মধ্যে প্রতিফলিত হয়, যা পুনরাবৃত্তিমূলক প্রক্রিয়াটির মাধ্যমে সর্বোচ্চ জয়ের হারটি চালিত করে। মন্টেকার্লো ট্রি অনুসন্ধান অ্যালগরিদম সিদ্ধান্ত নেয় যে কৌশল নেটওয়ার্কটি কেবলমাত্র যেখানে জয়ের হার বেশি থাকে সেখানে চালিয়ে যাবে, যাতে কিছু লাইন বাদ দেওয়া যায় এবং একটি রাস্তা গণনা না করে কালো।

AlphaGo এই দুটি সরঞ্জাম ব্যবহার করে পরিস্থিতি বিশ্লেষণ করে এবং প্রতিটি কৌশলকে ভাল বা খারাপ বলে বিচার করে, যেমন একজন মানব খেলোয়াড় বর্তমান পরিস্থিতি এবং ভবিষ্যতের পরিস্থিতি সম্পর্কে ধারণা দেয়। মন্টে কার্লো ট্রি সার্চ অ্যালগরিদম ব্যবহার করে বিশ্লেষণ করা হয়েছে, উদাহরণস্বরূপ, পরবর্তী 20 টি পদক্ষেপের ক্ষেত্রে, এটি নির্ধারণ করতে পারে যে কোনটি জয়ের সম্ভাবনা বেশি।

কিন্তু কোন সন্দেহ নেই যে মন্টেকার্লো আলগোরিদিমটি আলফা-গো-র মূল অংশ।

দুটি ছোট্ট পরীক্ষা শেষ পর্যন্ত, মন্টে কার্লো অ্যালগরিদমের দুটি ছোট্ট পরীক্ষা দেখুন।

### ১. pi ∈ R এর পরিধি গণনা করুন।

নীতিঃ প্রথমে একটি বর্গক্ষেত্র আঁকুন, এর ভিতরে একটি বৃত্ত আঁকুন, তারপর এই বর্গক্ষেত্রের ভিতরে একটি এলোমেলো অঙ্কন বিন্দু, বৃত্তের ভিতরে পয়েন্টটি প্রায় P হিসাবে সেট করুন, P = বৃত্তের ক্ষেত্রফল / বর্গক্ষেত্রের ক্ষেত্রফল। P=(Pi*R*R)/(2R*2R) = Pi/4, অর্থাৎ Pi=4P

পদক্ষেপঃ ১. বৃত্তের কেন্দ্রকে মূল বিন্দুতে স্থাপন করুন, আরকে ব্যাসার্ধ হিসাবে বৃত্ত করুন, তাহলে প্রথম চতুর্ভুজের বৃত্তের এক-চতুর্থাংশের আয়তন হবে Pi*R*R/4 ২. এই ১/৪ বৃত্তের বাইরের বর্গক্ষেত্রটি করুন, সমন্বয়গুলি হল ০,০,০,০,আর,আর,০,আর,আর,আর, তাহলে এই বর্গক্ষেত্রের আয়তন হবে আর*R ৩. অবিলম্বে একটি বিন্দু (X, Y) নিন, যাতে 0 <= X <= R এবং 0 <= Y <= R হয়, অর্থাৎ বিন্দুটি একটি বর্গক্ষেত্রের মধ্যে রয়েছে ৪. ফর্মুলা এক্স*X+Y*Y*R এর বিচারক বিন্দু ¹⁄₄ বৃত্তের ভিতরে আছে কিনা। 5. সবগুলো বিন্দু (অর্থাৎ পরীক্ষার সংখ্যা) এর সংখ্যা N এবং ১/৪ বৃত্তের ভিতরে অবস্থিত বিন্দু (অর্থাৎ ধাপ ৪ পূরণকারী বিন্দু) এর সংখ্যা M হলে

P=M/N তাই Pi=4*N/M আলফাগোর অস্ত্র: মন্টে কার্লো অ্যালগরিদম, এটি পড়ার পর তুমি বুঝতে পারবে! (কোড উদাহরণ সহ)–পুনঃমুদ্রণ ছবি ১

M_C ((10000) চালানোর ফলাফল হল 3.1424

### ২. মন্টেকার্লো মডেলিং ফাংশনগুলির চূড়ান্ত মানগুলি, স্থানীয় চূড়ান্ত মানগুলিতে আটকে যাওয়া এড়ানো

# মাঝখানে[-2,2] এলোমেলোভাবে একটি সংখ্যা উৎপন্ন করে, তার সমতুল্য y খুঁজে বের করে, এবং খুঁজে বের করে যে, এর মধ্যে সবচেয়ে বড়টি হল ফাংশন[-2,2] এর সর্বোচ্চ মান আলফাগোর অস্ত্র: মন্টে কার্লো অ্যালগরিদম, এটি পড়ার পর তুমি বুঝতে পারবে! (কোড উদাহরণ সহ)–পুনঃমুদ্রণ ছবি ২

1000 টি সিমুলেশন পরে 185.12292832389875 (খুব নির্ভুল)

এখানে দেখুন, আপনারা বুঝতে পেরেছেন। কোডটি হাতে লেখা যায়, খুব মজার! উইকিপিডিয়ার সর্বজনীন সংস্করণ থেকে পুনর্নির্দেশিত

Forums

PINE Language FAQ Summary MyLanguage Web3 About Us

Product

Robot Strategy Node Platforms Tickets

API

Syntax guide User guide Trading api Blockchain Indicator