319 পড়া
319 পড়া

বিজ্ঞানীরা কিভাবে বিশ্বের সমস্যাগুলোকে শক্তিশালী শেখার সাথে গেমে পরিণত করেছিলেন

দ্বারা Our AI8m2025/06/04
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

Reinforcement Learning একটি সহজ ধারণা যা প্রযুক্তির ও চিন্তার উপর অনিবার্য প্রভাব ফেলেছে।
featured image - বিজ্ঞানীরা কিভাবে বিশ্বের সমস্যাগুলোকে শক্তিশালী শেখার সাথে গেমে পরিণত করেছিলেন
Our AI HackerNoon profile picture
0-item

আপনি কি কখনও জিজ্ঞেস করেন কিভাবে সার্কাস ম্যানেজাররা বুকগুলি একটি বুলেট ভারসাম্য করার জন্য, বা একটি টাইগার ফ্ল্যামিং হুপগুলির মাধ্যমে ঝাঁপিয়ে পড়তে পারে? উত্তর: শক্তিশালীকরণ। টাইগাররা সাধারণত ফ্ল্যামিং হুপগুলির মাধ্যমে ঝাঁপিয়ে পড়েন না, কিন্তু তারা যদি আপনি তাদের প্রতিটি সময় একটি সুস্বাদু মাংসের টুকরা দিতে পারেন। অবশেষে, একটি টাইগার জানে যে খাবার পেতে, এটি সাহসী ঝাঁপগুলি করতে হবে, এবং তাই এটি দক্ষভাবে এবং নিয়মিতভাবে করে। মানুষগুলি অনুরূপভাবে শিখে: আমরা স্বাস্থ্যকর খাবার খাওয়া, অনুশীলন, এবং ইতিবাচক কিছু লাভ করার জন্য কঠোরভাবে৯০-এর দশকের কাগজপত্রকিভাবে "Q Learning" অ্যালগরিদমগুলি জটিল পরিবেশে সংশ্লিষ্ট করতে সাহায্য করতে পারে তা বিস্তারিতভাবে বর্ণনা করা হয়েছে, কিন্তু এটি কেবলমাত্র২০১৩ সালের গবেষণার ফলাফলগুগল ডেপমিন্ড দ্বারা যা বিশ্বকে শিখিয়েছে যে এটি বাস্তবে কিভাবে করা যেতে পারে তা বলতে অতিরিক্ত নয় যে, এক দশকের মধ্যে, রিফ্রেশিং শিখা, অথবা RL সংক্ষেপে, বিশ্বকে পরিবর্তন করেছে, এবং এটি বেশ কিছু সময় ধরে এটি করবে।

৯০-এর দশকের কাগজপত্র২০১৩ সালের গবেষণার ফলাফল

Wisdom Comes from Within

১৯৩৮ সালে আচরণবিজ্ঞানী ব.এফ. স্কিনারশব্দটি আঁকড়ে"অপার্টেন্ট কন্ডিশনারিং" বর্ণনা করে যে কিভাবে প্রাণীরা একটি প্রক্রিয়া ব্যবহার করে নির্দিষ্ট স্বেচ্ছাসেবী কর্মগুলি সম্পাদন করতে তাদের প্রবণতা বৃদ্ধি করতে পারেজোরদারতিনি আবিষ্কার করেন যে, যদি একটি কর্ম (যেমন, তার ক্ষেত্রে, একটি হুইস একটি হেফাজতে চাপা) ইতিবাচক কিছু দ্বারা শক্তিশালী করা হয় (তিনি খাবার এবং পানি ব্যবহার করে), এটি আবার পুনরাবৃত্তি করা সম্ভব ছিল।শাস্তিঅগ্নিদগ্ধ হওয়ার কারণেই তা ছিল।কমএই প্রক্রিয়া যতটা সহজ, আমরা জানি যে মানবতা এটি ছাড়া একই হবে না. বিশ্বের কল্পনা করুন যদি সব ছোট শিশুদের শিখতে কষ্ট হয় যে আপনি এমন জিনিসগুলি করবেন না যা সবসময় আপনাকে নিজেকে আঘাত দেয়!

শব্দটি আঁকড়ে

এই সহজ সত্যটিই ক্রিস্টোফার ওয়াটকিনসকে তার১৯৮৯ ডি. ডি. টেস্টযদি মানুষ ও প্রাণী শিখতে পারে, তাহলে কেন মেশিন শিখতে পারে না?Q শিক্ষাএকজন এজেন্ট একটি সীমিত পরিবেশের সাথে যোগাযোগের মাধ্যমে শিখে যাওয়ার প্রক্রিয়া. তিনি সুপারিশ করেছেন যে, যেকোন পরিবেশে, একটি Q Learning এজেন্টের লক্ষ্য একটি সীমিত পরিবেশের সাথে যোগাযোগের মাধ্যমে শিখতে হবে।রাজনীতিসংযোগের মাধ্যমেঅ্যাকশন স্টেট প্যারিসএটি বুঝতে, একটি ভিডিও গেমের উদাহরণ গ্রহণ করুন যেখানে একজনকে কয়েকটি গেট পাস করতে হয়, যার প্রতিটি গেট একটি একক অক্ষরের পাসওয়ার্ড দ্বারা লক করা হয়।কর্মসূচি, অথবা এজেন্টের আচরণ, এই সংখ্যাটি হবে যে এজেন্ট প্রতিটি গেটে অনুমান করে, এবংরাষ্ট্র, অথবা এজেন্টের চারপাশের পরিবেশ, এজেন্ট যে দরজায় আছেন সেটা হবে।পুরস্কারএকটি পুরস্কার একটি বড় হতে পারে (সম্ভবত একটি স্তর শেষ করার জন্য) বা একটি ছোট হতে পারে (একটি গেট সম্পন্ন করার জন্য). ওয়াটকিনস প্রস্তাব করেছিলেন যে একটি মডেল সব সম্ভব চেষ্টা করবেসরকারি দম্পতিরা, অথবা একটি নির্দিষ্ট পরিস্থিতি যেখানে একটি কর্মটি একটি রাষ্ট্রের সাথে সংযুক্ত করা হয়, তারপর একটি সহজ সর্বোচ্চকরণ অ্যালগরিদম চালান যাতে একটি উচ্চ পুরস্কারের জন্য উত্সাহিত স্মরণীয় স্টেট-অ্যাকশন জুড়িকে পছন্দ করে।

১৯৮৯ ডি. ডি. টেস্ট

তারপর, একটি সম্ভাব্য স্টেট-অ্যাকশন জুটি দ্বিতীয় গেটে "4" নির্বাচন করা হবে। অন্যটি দ্বিতীয় গেটে "6" নির্বাচন করা হবে, যদিও এই পছন্দটি সম্ভবত দ্বিতীয় গেটের জন্য এটি ভুল নম্বর হিসাবে অনেক কম পুরস্কারের ফলে হবে। আমরা বলি যে ৬ নম্বর গেটটি অতিক্রম করার জন্য পুরস্কারটি 1 এবং যে প্রতিটি অতিরিক্ত গেটটি অতিক্রম করা হয়েছে (৬ নম্বরটি অন্তর্ভুক্ত না করে) 0.2 এর পুরস্কার দেয়। একটি প্রাথমিক Q Learning এজেন্ট সম্ভবত প্রথম গেটে 1-9 নম্বরগুলি, দ্বিতীয় গেট, ইত্যাদি চেষ্টা করেছিলেন। এটি এটি যতক্ষণ না এটি রাষ্ট্রের মূল্য জুড়ির সমQ মূল্যএকটি প্রস্তাবিত পরিবর্তনশীল যা একটি নির্দিষ্ট অ্যাকশন-মূল্য জোড়া থেকে উপস্থাপিত পুরস্কারকে প্রদর্শন করবে. কিভাবে Q-মূল্যকে সর্বোচ্চ করতে শিখে, ওয়াটকিনস অনুমান করেছিলেন, মডেলগুলি একটি অ-সম্ভবতা পরিবেশে সর্বোত্তম সিদ্ধান্ত নিতে সক্ষম হবে.

DeepMind Steps In

২০১৩ সালে, আইআই গবেষণা ল্যাব ডেপমিন্ডের গবেষকরা প্রকাশ করেছিলেন যা একটিLandmark কাগজতাদের কাগজটি একটি গুরুত্বপূর্ণ ধরনের যা Reinforcement Learning (RL) মডেল হিসাবে পরিচিত হবে তা প্রবর্তনের লক্ষ্য করে:Deep-Q নেটওয়ার্কগবেষকরা এজেন্টদের প্রশিক্ষণের জন্য Q Learning ব্যবহার করার ক্ষমতা স্বীকার করেছিলেন, কিন্তু উল্লেখ করেছিলেন যে ওয়াটকিনসের সিস্টেমে কিছু সমস্যা ছিল।সবসম্ভাব্য স্টেট-অ্যাকশন জুতাগুলি লক্ষ লক্ষ সিদ্ধান্তের সংমিশ্রণ সহ জটিল গেমগুলিতে কাজ করবে না।স্থানীয় সর্বোচ্চবলা যাক যে একটি গ্লোবাল গেমের পুরস্কারটি সেই দৈর্ঘ্য দ্বারা নির্ধারণ করা হয় যেখানে একজন খেলোয়াড় গোলের দিকে মোট পথ চলাচল করে।

Landmark কাগজ

ডেপমিন্ড টিম উভয় সমস্যার জ্ঞানীভাবে সমাধান করেছে. সমস্ত বিকল্পগুলি চালানোর কম্পিউটার খরচ হ্রাস করার জন্য, তারাইপসিলন-গ্রেডিএই পদ্ধতি, গ্রিক অক্ষর epsilon (Ɛ) এর পরে নামকরণ করা হয়, Watkin এরগর্বিত নীতিসবসময় সর্বোচ্চ পরিচিত পুরস্কারের পর যাওয়াঅনুসন্ধানী নীতিধারণাটি হল যে, প্রতিটি রাষ্ট্রে, এজেন্টের একটি Ɛ সুযোগ থাকবে অনুসন্ধান করার (অ্যাকশনগুলির মধ্যে একটি র্যান্ডমভাবে নির্বাচন করুন) এবং সর্বোচ্চ Q মূল্য অনুসরণ করার 1 - Ɛ সুযোগ থাকবে যা গর্বিত নীতি দ্বারা নির্ধারিত হয়। যদি আপনি আনুষ্ঠানিক ব্যাখ্যাগুলিতে না হন তবে এটি মূলত মানে হল যে মডেলটি প্রতিটি সময় নতুন কর্মগুলি চেষ্টা করার একটি নির্দিষ্ট সম্ভাবনা থাকবে, একটি দরকারী আচরণ যা সর্বোচ্চকরণের উপর ফোকাস করে অনেক সময় সংরক্ষণ করবে (যেন কম মূল্যবান স্টেট-অ্যাকশন জুড়িগুলি বাদ দেওয়া যেতে পারে) এবং সিদ্ধান্ত নেওয়ার ক্ষেত্রে নমনীয়তাও দেয় (যেন এজেন্টটি স্থানীয় সর্বো

উদাহরণস্বরূপ, যদি এজেন্টটি এখনও একটি খেলা শেষ করার প্রক্রিয়ায় থাকে, তাহলে কিভাবে তিনি জানবেন যে নির্দিষ্ট পদক্ষেপগুলি সরাসরি একটি ভাল ফলাফল আনবে?কারণহ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ, হ্যাঁ!পূর্বাভাসডেপমিন্ড একটি নতুন পদ্ধতি চালু করেছে যা তারা রাষ্ট্র-অ্যাকশন জুড়ির মধ্যে "সম্পর্ক ভেঙে" নামে।Q নেটওয়ার্কQ নেটওয়ার্ক মূলত সম্পূর্ণ DQN এর ভিতরে একটি কম্প্যাক্ট মেশিন লার্নিং মডেল।পূর্বাভাসআমাদের গেট এবং পাসওয়ার্ডের সাথে আমাদের উদাহরণে ফিরে যান, একটি ভাল প্রশিক্ষিত Q নেটওয়ার্ক প্রতিটি গেটে সঠিক সংখ্যা অনুমান করার পরিবর্তে একটি ভুল সংখ্যা অনুমান করার জন্য একটি উচ্চতর পূর্বাভাসিত Q মান উত্পাদন করবে।অভিজ্ঞতা পুনরাবৃত্তি, নেটওয়ার্কটি এমন একটি ডেটা ব্যাচের উপর প্রশিক্ষিত হতে পারে যা এজেন্ট পরিবেশ থেকে গ্রহণ করে, এবং এইভাবে Q মানগুলি আরও ভালভাবে পূর্বাভাস করার জন্য তার ওজনগুলি সংশোধন করতে সক্ষম হয় এবং এইভাবে এজেন্টকে দেয়া "সুবিধা"ে আরও কার্যকরী হতে পারে।

All the World’s a Game…

Reinforcement Learning এর সর্ববৃহৎ আকারে অনেক অগ্রগতি হয়েছে. DeepMind, 2014 সালে গুগলের দ্বারা অ্যাক্সেসের পরে, উন্নয়ন চালিয়েছেAlphaZero, সব সময় সবচেয়ে বিখ্যাত RL মডেল এক. একটি সম্ভাব্যতা বিতরণ মডেল ব্যবহার করে প্রশিক্ষণMonte Carlo Tree Search(MCTS) অ্যালগরিদম, আলফাজেরো দল সফলভাবে মূল আলফাজেরো মডেলের বিকল্পগুলি বিভিন্ন অন্যান্য জটিল কাজে সাধারণ করে, যার মধ্যে রয়েছে:

আলফামন্টি কার্লো গাছ অনুসন্ধান


  • আলফাগো, যা বিশ্বের শাসিত গু চ্যাম্পিয়ন লি সিডোলকে কঠোরভাবে পরাজিত করে বিশ্বকে চমকে দিয়েছে, যা কখনও তৈরি করা সবচেয়ে জটিল বোর্ড গেমগুলির মধ্যে একটি হিসাবে বিবেচিত হয়েছিল।
  • আলফাপ্রোফ, একটি বিকল্প যা লিমিটেড গণিত সমস্যাগুলি সমাধান করার জন্য LEAN-ফর্মাল প্রমাণগুলির উপর কাজ করে, সিমুলেড আন্তর্জাতিক গণিত অলিম্পিয়াড (আইএমও) বেনচমার্কিং টেস্টে সিলভার অর্জন করে।
  • আলফোল্ড, যিনি ২০২৪ সালে তার ডেভেলপমেন্ট টিমকে নোবেল বায়োলজি পুরস্কার জিতেছিলেন, প্রোটিন প্যাকেজিংয়ের ক্ষেত্রে অগ্রগতি অর্জন করেছিলেন, যা আণবিক জীববিজ্ঞানের সবচেয়ে জটিল দিকগুলির মধ্যে একটি।

Reinforcement Learning এর ধারণাটি আমাদের জীবন সম্পর্কে অনেক কিছু শেখাতে পারে: আবিষ্কার করুন কোন জিনিসগুলি সর্বোচ্চ মূল্যবান এবং কর্মের মাধ্যমে সেই মূল্য অর্জন করার চেষ্টা করুন. যদি কিছু আপনার পথে না যায়, তাহলে এটি কাজ না হওয়া পর্যন্ত অন্য কিছু চেষ্টা করুন। মানুষ প্রায়শই আমাদের ডিজাইন করা সিস্টেমগুলির সুনির্দিষ্টতাগুলি উপেক্ষা করে, এবং এই কারণে আমি Reinforcement Learning এত বেশি ভালবাসি। এমন কিছু জন্য যা সহজ এবং উজ্জ্বল, এর সম্ভাবনাটি মানবতার প্রকৃতি দ্বারা সীমাবদ্ধ। RL প্রক্রিয়ার সবচেয়ে গুরুত্বপূর্ণ অংশগুলির মধ্যে একটি, যা পুরস্কার ফাংশন, মানুষ দ্বারা সেট করা হয়। AlphaZero টিমের অর্জনগুলি

আর এটাই বিশ্বের শীর্ষ গবেষকরা করছে। ঠিক আছে, এক ধরনের। যখন আমি প্রথম 2024 এর গ্রীষ্মে RL সম্পর্কে শিখেছিলাম, তখন প্রযুক্তিটি 2017 সালে আলফাজেরো টিমের বিজয়গুলির পরে কোন বড় অগ্রগতি ছিল না। সবাই চ্যাটজিপিটি সম্পর্কে কথা বলেছিল, এটা মনে হয়েছিল, নতুন ট্রান্সফরমারগুলি যারা অর্ধ বছর ধরে প্রযুক্তি আলোচনার উপর নির্ভরশীল ছিল। আমি কল্পনা করেছিলাম যে RL কতটা কঠিন ছিল, এবং তারপর আমি এটি সম্পর্কে ভুলে গেছিলাম। অর্থাৎ, OpenAI এর সাথে রিফ্রেশিং শিখার সাথে ট্রান্সফরমার আর্কিটেকচারকে একত্রিত করার ধারণা না হওয়া পর্যন্ত, আমি RL-LLশ্রমিক অপব্যবহার সমস্যাআইআই শিল্পে, যা আমরা আগে কভারেজ করেছি এবং বিরোধিতা করেছি।

শ্রমিক অপব্যবহার সমস্যা


এই নিবন্ধটি আমাদের এআই দ্বারা আপনাকে নিয়ে আসে, একটি ছাত্র-ভিত্তিক এবং ছাত্র নেতৃত্বাধীন এআই নৈতিকতা সংস্থা যা আধুনিক মিডিয়াতে সাধারণত আলোচনা করা যাওয়ার বাইরে এআই এর দৃষ্টিভঙ্গিগুলি বৈচিত্র্য করার চেষ্টা করে।

এই নিবন্ধটি আমাদের এআই দ্বারা আপনাকে নিয়ে আসে, একটি ছাত্র-ভিত্তিক এবং ছাত্র নেতৃত্বাধীন এআই নৈতিকতা সংস্থা যা আধুনিক মিডিয়াতে সাধারণত আলোচনা করা যাওয়ার বাইরে এআই এর দৃষ্টিভঙ্গিগুলি বৈচিত্র্য করার চেষ্টা করে।

Learn More

এই বলে, RL তার সর্বোচ্চ সম্ভাবনা পৌঁছানোর আগে দীর্ঘ পথ আছে।চিন্তার চেইন (Chain of Thought)অনেক ঐতিহ্যবাহী RL মডেলগুলি সংমিশ্রণের আগে লক্ষ লক্ষ বার প্রশিক্ষণ করতে হবে, সংশ্লিষ্ট পরিবেশ বড় বা অত্যন্ত জটিল হলে দ্রুত খরচ বৃদ্ধি করে, যেমনটি প্রাকৃতিক ভাষায় লেখা জটিল সমস্যাগুলির সমাধানগুলির জন্য সাধারণকরণের ক্ষেত্রে। এই উদ্দেশ্যে, ভবিষ্যৎ RL মডেলগুলি LLMs (অথবা এমনকি RL-LLMs) উপর নির্ভর করতে পারে যাতে "গেমিফাই" সমস্যাগুলি, ঠিক যেমন আলফাজেরো টিম আলফাপ্রোফের জন্য করেছিলেন, তার সমীকরণগুলি আনুষ্ঠানিক প্রমাণ ফরম্যাট LEANে রূপান্তর করে যাতে তারা সমাধান করা যেতে পারে।আর্টিকেল জেনারেল ইন্টেলিজেন্স (AGI)আবারও, RL বিশ্বের সবচেয়ে জটিল সমস্যার সমাধান করতে পারে ... যদি আমরা কীভাবে দ্রুত তাদের গেমে রূপান্তর করতে পারি।

চিন্তার চেইন (Chain of Thought)আর্টিকেল জেনারেল ইন্টেলিজেন্স (AGI)

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks