আপনি কি কখনও জিজ্ঞেস করেন কিভাবে সার্কাস ম্যানেজাররা বুকগুলি একটি বুলেট ভারসাম্য করার জন্য, বা একটি টাইগার ফ্ল্যামিং হুপগুলির মাধ্যমে ঝাঁপিয়ে পড়তে পারে? উত্তর: শক্তিশালীকরণ। টাইগাররা সাধারণত ফ্ল্যামিং হুপগুলির মাধ্যমে ঝাঁপিয়ে পড়েন না, কিন্তু তারা যদি আপনি তাদের প্রতিটি সময় একটি সুস্বাদু মাংসের টুকরা দিতে পারেন। অবশেষে, একটি টাইগার জানে যে খাবার পেতে, এটি সাহসী ঝাঁপগুলি করতে হবে, এবং তাই এটি দক্ষভাবে এবং নিয়মিতভাবে করে। মানুষগুলি অনুরূপভাবে শিখে: আমরা স্বাস্থ্যকর খাবার খাওয়া, অনুশীলন, এবং ইতিবাচক কিছু লাভ করার জন্য কঠোরভাবে
Wisdom Comes from Within
১৯৩৮ সালে আচরণবিজ্ঞানী ব.এফ. স্কিনার
এই সহজ সত্যটিই ক্রিস্টোফার ওয়াটকিনসকে তার
তারপর, একটি সম্ভাব্য স্টেট-অ্যাকশন জুটি দ্বিতীয় গেটে "4" নির্বাচন করা হবে। অন্যটি দ্বিতীয় গেটে "6" নির্বাচন করা হবে, যদিও এই পছন্দটি সম্ভবত দ্বিতীয় গেটের জন্য এটি ভুল নম্বর হিসাবে অনেক কম পুরস্কারের ফলে হবে। আমরা বলি যে ৬ নম্বর গেটটি অতিক্রম করার জন্য পুরস্কারটি 1 এবং যে প্রতিটি অতিরিক্ত গেটটি অতিক্রম করা হয়েছে (৬ নম্বরটি অন্তর্ভুক্ত না করে) 0.2 এর পুরস্কার দেয়। একটি প্রাথমিক Q Learning এজেন্ট সম্ভবত প্রথম গেটে 1-9 নম্বরগুলি, দ্বিতীয় গেট, ইত্যাদি চেষ্টা করেছিলেন। এটি এটি যতক্ষণ না এটি রাষ্ট্রের মূল্য জুড়ির সমQ মূল্যএকটি প্রস্তাবিত পরিবর্তনশীল যা একটি নির্দিষ্ট অ্যাকশন-মূল্য জোড়া থেকে উপস্থাপিত পুরস্কারকে প্রদর্শন করবে. কিভাবে Q-মূল্যকে সর্বোচ্চ করতে শিখে, ওয়াটকিনস অনুমান করেছিলেন, মডেলগুলি একটি অ-সম্ভবতা পরিবেশে সর্বোত্তম সিদ্ধান্ত নিতে সক্ষম হবে.
DeepMind Steps In
২০১৩ সালে, আইআই গবেষণা ল্যাব ডেপমিন্ডের গবেষকরা প্রকাশ করেছিলেন যা একটি
ডেপমিন্ড টিম উভয় সমস্যার জ্ঞানীভাবে সমাধান করেছে. সমস্ত বিকল্পগুলি চালানোর কম্পিউটার খরচ হ্রাস করার জন্য, তারাইপসিলন-গ্রেডিএই পদ্ধতি, গ্রিক অক্ষর epsilon (Ɛ) এর পরে নামকরণ করা হয়, Watkin এরগর্বিত নীতিসবসময় সর্বোচ্চ পরিচিত পুরস্কারের পর যাওয়াঅনুসন্ধানী নীতিধারণাটি হল যে, প্রতিটি রাষ্ট্রে, এজেন্টের একটি Ɛ সুযোগ থাকবে অনুসন্ধান করার (অ্যাকশনগুলির মধ্যে একটি র্যান্ডমভাবে নির্বাচন করুন) এবং সর্বোচ্চ Q মূল্য অনুসরণ করার 1 - Ɛ সুযোগ থাকবে যা গর্বিত নীতি দ্বারা নির্ধারিত হয়। যদি আপনি আনুষ্ঠানিক ব্যাখ্যাগুলিতে না হন তবে এটি মূলত মানে হল যে মডেলটি প্রতিটি সময় নতুন কর্মগুলি চেষ্টা করার একটি নির্দিষ্ট সম্ভাবনা থাকবে, একটি দরকারী আচরণ যা সর্বোচ্চকরণের উপর ফোকাস করে অনেক সময় সংরক্ষণ করবে (যেন কম মূল্যবান স্টেট-অ্যাকশন জুড়িগুলি বাদ দেওয়া যেতে পারে) এবং সিদ্ধান্ত নেওয়ার ক্ষেত্রে নমনীয়তাও দেয় (যেন এজেন্টটি স্থানীয় সর্বো
উদাহরণস্বরূপ, যদি এজেন্টটি এখনও একটি খেলা শেষ করার প্রক্রিয়ায় থাকে, তাহলে কিভাবে তিনি জানবেন যে নির্দিষ্ট পদক্ষেপগুলি সরাসরি একটি ভাল ফলাফল আনবে?কারণহ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ!পূর্বাভাসডেপমিন্ড একটি নতুন পদ্ধতি চালু করেছে যা তারা রাষ্ট্র-অ্যাকশন জুড়ির মধ্যে "সম্পর্ক ভেঙে" নামে।Q নেটওয়ার্কQ নেটওয়ার্ক মূলত সম্পূর্ণ DQN এর ভিতরে একটি কম্প্যাক্ট মেশিন লার্নিং মডেল।পূর্বাভাসআমাদের গেট এবং পাসওয়ার্ডের সাথে আমাদের উদাহরণে ফিরে যান, একটি ভাল প্রশিক্ষিত Q নেটওয়ার্ক প্রতিটি গেটে সঠিক সংখ্যা অনুমান করার পরিবর্তে একটি ভুল সংখ্যা অনুমান করার জন্য একটি উচ্চতর পূর্বাভাসিত Q মান উত্পাদন করবে।অভিজ্ঞতা পুনরাবৃত্তি, নেটওয়ার্কটি এমন একটি ডেটা ব্যাচের উপর প্রশিক্ষিত হতে পারে যা এজেন্ট পরিবেশ থেকে গ্রহণ করে, এবং এইভাবে Q মানগুলি আরও ভালভাবে পূর্বাভাস করার জন্য তার ওজনগুলি সংশোধন করতে সক্ষম হয় এবং এইভাবে এজেন্টকে দেয়া "সুবিধা"ে আরও কার্যকরী হতে পারে।
All the World’s a Game…
Reinforcement Learning এর সর্ববৃহৎ আকারে অনেক অগ্রগতি হয়েছে. DeepMind, 2014 সালে গুগলের দ্বারা অ্যাক্সেসের পরে, উন্নয়ন চালিয়েছে
- আলফাগো, যা বিশ্বের শাসিত গু চ্যাম্পিয়ন লি সিডোলকে কঠোরভাবে পরাজিত করে বিশ্বকে চমকে দিয়েছে, যা কখনও তৈরি করা সবচেয়ে জটিল বোর্ড গেমগুলির মধ্যে একটি হিসাবে বিবেচিত হয়েছিল।
- আলফাপ্রোফ, একটি বিকল্প যা লিমিটেড গণিত সমস্যাগুলি সমাধান করার জন্য LEAN-ফর্মাল প্রমাণগুলির উপর কাজ করে, সিমুলেড আন্তর্জাতিক গণিত অলিম্পিয়াড (আইএমও) বেনচমার্কিং টেস্টে সিলভার অর্জন করে।
- আলফোল্ড, যিনি ২০২৪ সালে তার ডেভেলপমেন্ট টিমকে নোবেল বায়োলজি পুরস্কার জিতেছিলেন, প্রোটিন প্যাকেজিংয়ের ক্ষেত্রে অগ্রগতি অর্জন করেছিলেন, যা আণবিক জীববিজ্ঞানের সবচেয়ে জটিল দিকগুলির মধ্যে একটি।
Reinforcement Learning এর ধারণাটি আমাদের জীবন সম্পর্কে অনেক কিছু শেখাতে পারে: আবিষ্কার করুন কোন জিনিসগুলি সর্বোচ্চ মূল্যবান এবং কর্মের মাধ্যমে সেই মূল্য অর্জন করার চেষ্টা করুন. যদি কিছু আপনার পথে না যায়, তাহলে এটি কাজ না হওয়া পর্যন্ত অন্য কিছু চেষ্টা করুন। মানুষ প্রায়শই আমাদের ডিজাইন করা সিস্টেমগুলির সুনির্দিষ্টতাগুলি উপেক্ষা করে, এবং এই কারণে আমি Reinforcement Learning এত বেশি ভালবাসি। এমন কিছু জন্য যা সহজ এবং উজ্জ্বল, এর সম্ভাবনাটি মানবতার প্রকৃতি দ্বারা সীমাবদ্ধ। RL প্রক্রিয়ার সবচেয়ে গুরুত্বপূর্ণ অংশগুলির মধ্যে একটি, যা পুরস্কার ফাংশন, মানুষ দ্বারা সেট করা হয়। AlphaZero টিমের অর্জনগুলি
আর এটাই বিশ্বের শীর্ষ গবেষকরা করছে। ঠিক আছে, এক ধরনের। যখন আমি প্রথম 2024 এর গ্রীষ্মে RL সম্পর্কে শিখেছিলাম, তখন প্রযুক্তিটি 2017 সালে আলফাজেরো টিমের বিজয়গুলির পরে কোন বড় অগ্রগতি ছিল না। সবাই চ্যাটজিপিটি সম্পর্কে কথা বলেছিল, এটা মনে হয়েছিল, নতুন ট্রান্সফরমারগুলি যারা অর্ধ বছর ধরে প্রযুক্তি আলোচনার উপর নির্ভরশীল ছিল। আমি কল্পনা করেছিলাম যে RL কতটা কঠিন ছিল, এবং তারপর আমি এটি সম্পর্কে ভুলে গেছিলাম। অর্থাৎ, OpenAI এর সাথে রিফ্রেশিং শিখার সাথে ট্রান্সফরমার আর্কিটেকচারকে একত্রিত করার ধারণা না হওয়া পর্যন্ত, আমি RL-LL
এই নিবন্ধটি আমাদের এআই দ্বারা আপনাকে নিয়ে আসে, একটি ছাত্র-ভিত্তিক এবং ছাত্র নেতৃত্বাধীন এআই নৈতিকতা সংস্থা যা আধুনিক মিডিয়াতে সাধারণত আলোচনা করা যাওয়ার বাইরে এআই এর দৃষ্টিভঙ্গিগুলি বৈচিত্র্য করার চেষ্টা করে।
এই নিবন্ধটি আমাদের এআই দ্বারা আপনাকে নিয়ে আসে, একটি ছাত্র-ভিত্তিক এবং ছাত্র নেতৃত্বাধীন এআই নৈতিকতা সংস্থা যা আধুনিক মিডিয়াতে সাধারণত আলোচনা করা যাওয়ার বাইরে এআই এর দৃষ্টিভঙ্গিগুলি বৈচিত্র্য করার চেষ্টা করে।
Learn More
এই বলে, RL তার সর্বোচ্চ সম্ভাবনা পৌঁছানোর আগে দীর্ঘ পথ আছে।