Pernahkah Anda bertanya-tanya bagaimana manajer sirkus mendapatkan beruang untuk menyeimbangkan bola, atau harimau untuk melompat melalui lompatan api? Jawabannya: perbaikan. Harimau biasanya tidak melompat melalui lompatan api, tetapi mereka akan jika Anda memberi mereka sepotong daging yang lezat setiap kali ia melakukan. Akhirnya, harimau belajar bahwa untuk mendapatkan makanan, ia harus melakukan lompatan berani, dan sehingga ia melakukannya dengan bijak dan konsisten. Manusia belajar dengan cara yang sama: kita belajar untuk makan makanan sehat, berolahraga, dan belajar keras untuk mendapatkan sesuatu yang positif, apakah itu adalah ledakan dopamin, uang, dan kesuksesan. Fenomena ini, di mana manusia (atau hampir setiap hewan lain) meningkatkan perilaku spesifik setelah mereka dihargai dalam beberapa cara untuk itu, adalah bagian integral dari bagaimana kita belajar. Untuk waktu yang lama,
Wisdom Comes from Within
Pada tahun 1938, psikolog perilaku B. F. Skinner
Ini adalah kebenaran sederhana yang mendorong Christopher Watkins untuk mengembangkan
Kemudian, pasangan tindakan negara yang mungkin adalah memilih “4” di gerbang kedua. Yang lain adalah memilih “6” di gerbang kedua, meskipun pilihan ini mungkin akan menyebabkan imbalan yang jauh lebih rendah, karena itu adalah digit yang salah untuk gerbang kedua. Mari kita katakan bahwa imbalan untuk melewati gerbang ke-6 adalah 1, dan bahwa setiap gerbang tambahan yang melewati (tidak termasuk gerbang ke-6) memberikan imbalan 0.2. Seorang agen pembelajaran Q awal mungkin akan mencoba angka 1-9 di gerbang pertama, gerbang kedua, dan seterusnya. Dia akan melakukannya sampai dia mencoba semua hasil yang mungkin dari pasangan nilai negara dan menerima semua imbalan untuk setiap kombinasi dari pasangan ini. Ia kemudian akan menetapkan untuk seri angka yang mengarah ke hadiah tertinggi, yang, seperti yang kita bisa katakan, adalah kombinasi yang benar 5-4-9-8-7-2, yang memberikan imbalan tertinggi dari 2.Q NilaiDengan mempelajari cara memaksimalkan nilai Q, Watkins menghipotesis, model akan dapat membuat keputusan optimal dalam lingkungan non-probabilistik.
DeepMind Steps In
Pada tahun 2013, para peneliti di laboratorium penelitian AI DeepMind mempublikasikan apa yang akan menjadi
Tim DeepMind memecahkan kedua masalah dengan cara yang cerdas. untuk mengurangi biaya komputasi dari menjalankan melalui semua opsi, mereka memperkenalkanEpsilon-Greedy yangMetode ini, yang diberi nama setelah huruf Yunani epsilon (Ɛ), menyeimbangkan WatkinKebijakan Cerdasselalu mengikuti penghargaan tertinggi yang diketahui denganKebijakan eksplorasiIde ini adalah bahwa, di setiap negara bagian, agen akan memiliki kesempatan untuk mengeksplorasi (pilih salah satu tindakan secara acak) dan kesempatan 1 - Ɛ untuk mengikuti nilai Q maksimum seperti yang didikte oleh kebijakan cemburu. Jika Anda tidak masuk ke penjelasan formal, ini pada dasarnya berarti bahwa model akan memiliki probabilitas yang ditetapkan untuk mencoba tindakan baru dari waktu ke waktu, perilaku yang berguna yang akan menghemat banyak waktu dengan berfokus pada maximization (sehingga pasangan tindakan negara kurang berharga dapat dilewatkan) sambil juga memungkinkan fleksibilitas dalam pengambilan keputusan (sehingga agen tidak terjebak pada maxima lokal).
Jika agen masih dalam proses menyelesaikan permainan, misalnya, bagaimana dia akan tahu bahwa tindakan tertentu akan langsung mengarah ke hasil yang lebih baik?KarenaUntuk itu, petugas harusprediksiDeepMind memperkenalkan cara baru dari apa yang mereka sebut “menghancurkan korelasi” antara negara-aksi pasangan denganJaringan QJaringan Q pada dasarnya adalah model pembelajaran mesin yang kompak di dalam DQN lengkap. satu-satunya tugas Jaringan Q adalah belajar dari pengalaman agen, dan, mengingat status,prediksiKembali ke contoh kami dengan gerbang dan kata sandi, Jaringan Q yang terlatih akan menghasilkan nilai Q yang lebih tinggi yang diprediksi untuk tindakan menebak nomor yang benar di setiap gerbang, daripada menebak nomor yang salah. Jaringan Q itu sendiri berkembang sepanjang proses pelatihan.Pengalaman Repeat, jaringan dapat dilatih pada serangkaian data yang diterima agen dari lingkungan, dan dengan demikian dapat menyesuaikan beban untuk lebih baik memprediksi nilai Q dan dengan demikian lebih efektif dalam " saran" yang ia berikan kepada agen.
All the World’s a Game…
Reinforcement Learning dalam bentuk murni telah memiliki banyak kemajuan. DeepMind, setelah akuisisi oleh Google pada tahun 2014, terus mengembangkan
- AlphaGo, yang mengejutkan dunia dengan mengalahkan juara dunia yang berkuasa Go, Lee Sedol, dalam apa yang dianggap sebagai salah satu permainan papan yang paling kompleks yang pernah dibuat.
- AlphaProof, varian yang didedikasikan untuk memecahkan masalah matematika Olimpiade dengan beroperasi pada bukti-bukti LEAN-formalisasi, mencapai Silver di tes benchmarking Olimpiade Matematika Internasional (IMO) simulasi.
- AlphaFold, yang memenangkan pengembangan timnya Hadiah Nobel dalam Biologi pada tahun 2024, mencapai terobosan dalam melipat protein, salah satu aspek yang paling rumit dari biologi molekuler.
Konsep Reinforcement Learning memiliki banyak hal untuk mengajarkan kita tentang kehidupan: mencari tahu apa yang memiliki nilai tertinggi, dan berusaha untuk mencapai nilai itu melalui tindakan. Jika sesuatu tidak berjalan dengan cara Anda, cobalah sesuatu yang lain sampai berhasil. Manusia sering mengabaikan keripik sistem yang kami desain, dan itulah sebabnya saya suka Reinforcement Learning begitu banyak. Untuk sesuatu yang begitu sederhana dan brilian, potensinya dibatasi oleh (ironik) sifat kemanusiaan. Salah satu bagian paling penting dari proses RL, yaitu fungsi reward, ditetapkan oleh manusia. Melihat kembali pencapaian tim AlphaZero, jelas bahwa kita adalah faktor pembatasan dalam apa yang dapat dilakukan menggunakan RL. Tampaknya, karena AlphaZero dapat memecahkan hampir setiap permainan secara heuristik, satu-satunya hal yang tersisa untuk dilakukan adalah mengubah setiap masalah dunia menjadi permainan, dan memiliki AlphaZero memainkannya
Ketika saya pertama kali belajar tentang RL pada musim panas 2024, teknologi itu tidak memiliki terobosan besar sejak kemenangan tim AlphaZero pada tahun 2017. Semua orang berbicara tentang ChatGPT, tampaknya, serta Transformers baru yang telah mendominasi diskusi teknologi selama setengah tahun. Saya berpikir misterius tentang seberapa keren RL, dan kemudian saya melupakannya. Itu berarti, sampai OpenAI memiliki ide untuk menggabungkan arsitektur Transformer dengan Reinforcement Learning, menciptakan hibrida yang tidak suci yang saya suka sebut RL-LLMs, atau Reinforcement Learning-Large Language Models, untuk kesederhanaan. Sepertinya seperti tidak-brainer: diperkuat oleh paradigma yang disebut Reinforcement Learning with Human Feedback (HRLF), RL-M dapat memecahkan masalah dengan kekuatan transformator, dan deracerive menggunakan solusi berbasis umum Rastro-ste
Artikel ini dibawa kepada Anda oleh Kami AI, sebuah organisasi etika AI yang didirikan oleh siswa dan dipimpin oleh siswa yang berusaha untuk diversifikasi perspektif di AI melampaui apa yang biasanya dibahas di media modern.
Artikel ini dibawa kepada Anda oleh Kami AI, sebuah organisasi etika AI yang didirikan oleh siswa dan dipimpin oleh siswa yang berusaha untuk diversifikasi perspektif di AI melampaui apa yang biasanya dibahas di media modern.https://www.our-ai.org/ai-nexus/read!
Learn More
Dengan kata lain, RL memiliki jalan panjang untuk pergi sebelum mencapai potensi maksimumnya.