319 bacaan
319 bacaan

Bagaimana Ilmuwan Mengubah Masalah Dunia Menjadi Permainan Dengan Pembelajaran Reinforcement

oleh Our AI8m2025/06/04
Read on Terminal Reader

Terlalu panjang; Untuk membaca

Reinforcement Learning adalah ide sederhana yang telah memiliki dampak tak terhapus pada teknologi dan pemikiran.
featured image - Bagaimana Ilmuwan Mengubah Masalah Dunia Menjadi Permainan Dengan Pembelajaran Reinforcement
Our AI HackerNoon profile picture
0-item

Pernahkah Anda bertanya-tanya bagaimana manajer sirkus mendapatkan beruang untuk menyeimbangkan bola, atau harimau untuk melompat melalui lompatan api? Jawabannya: perbaikan. Harimau biasanya tidak melompat melalui lompatan api, tetapi mereka akan jika Anda memberi mereka sepotong daging yang lezat setiap kali ia melakukan. Akhirnya, harimau belajar bahwa untuk mendapatkan makanan, ia harus melakukan lompatan berani, dan sehingga ia melakukannya dengan bijak dan konsisten. Manusia belajar dengan cara yang sama: kita belajar untuk makan makanan sehat, berolahraga, dan belajar keras untuk mendapatkan sesuatu yang positif, apakah itu adalah ledakan dopamin, uang, dan kesuksesan. Fenomena ini, di mana manusia (atau hampir setiap hewan lain) meningkatkan perilaku spesifik setelah mereka dihargai dalam beberapa cara untuk itu, adalah bagian integral dari bagaimana kita belajar. Untuk waktu yang lama,Papers from the 1990smenjelaskan bagaimana “Q Learning” dapat membantu membuat algoritma dapat beradaptasi dengan lingkungan yang kompleks, tetapi itu tidak sampai2013 penelitian landmarkTidak berlebihan untuk mengatakan bahwa, selama satu dekade, Reinforcement Learning, atau RL untuk singkat, telah mengubah dunia, dan itu akan terus melakukannya untuk waktu yang cukup lama. artikel ini membahas aspek teknis dari arsitektur yang menarik ini sambil berkomentar tentang dampak tak tergantikan pada teknologi LLM.

Dokumen dari tahun 1990-an2013 penelitian landmark

Wisdom Comes from Within

Pada tahun 1938, psikolog perilaku B. F. Skinnercoined the term“operant conditioning” untuk menggambarkan bagaimana organisme dapat meningkatkan kecenderungan mereka untuk melakukan tindakan sukarela tertentu menggunakan proses yang disebutPerkembanganDia menemukan bahwa, jika suatu tindakan (seperti, dalam kasusnya, mouse menekan lever) diperkuat oleh sesuatu yang positif (dia menggunakan makanan dan air), kemungkinan akan diulang lagi.dihukumdengan sesuatu yang berbahaya (sakit terbakar), ia adalahkurangSeberapa sederhana proses ini, kemanusiaan seperti yang kita ketahui tidak akan sama tanpa itu. bayangkan dunia jika semua anak kecil mengalami kesulitan belajar bahwa Anda tidak harus melakukan hal-hal yang selalu menyebabkan Anda menyakiti diri sendiri!

Menggunakan istilah

Ini adalah kebenaran sederhana yang mendorong Christopher Watkins untuk mengembangkan1989 Ph. D. thesisJika manusia dan hewan dapat belajar melalui penguatan, mengapa tidak mesin?Q Belajarproses dimana seorang agen belajar melalui interaksi dengan lingkungan yang terbatas. dia mengusulkan bahwa, dalam lingkungan apa pun, tujuan agen Q Learning adalah untuk mengembangkanKebijakanMelalui korelasiPasangan aksi-negaraUntuk memahami ini, ambil contoh permainan video di mana seseorang harus melewati beberapa gerbang, dengan setiap gerbang diblokir oleh kata sandi dari satu digit acak.Aksi, atau perilaku yang dilakukan agen, akan menjadi angka yang ditebak agen di setiap gerbang, danNegara, atau lingkungan yang mengelilingi agen, akan menjadi gerbang di mana agen berada.PenghargaanPenghargaan dapat menjadi yang besar (mungkin untuk menyelesaikan level) atau yang kecil (untuk menyelesaikan satu gerbang).Pasangan Aksi Negara, atau situasi spesifik di mana suatu tindakan dikaitkan dengan suatu keadaan, maka lakukan algoritma maksimum sederhana untuk lebih memilih pasangan state-action yang teringat yang menyebabkan penghargaan yang tinggi.

1989 Ph. D. Tesis

Kemudian, pasangan tindakan negara yang mungkin adalah memilih “4” di gerbang kedua. Yang lain adalah memilih “6” di gerbang kedua, meskipun pilihan ini mungkin akan menyebabkan imbalan yang jauh lebih rendah, karena itu adalah digit yang salah untuk gerbang kedua. Mari kita katakan bahwa imbalan untuk melewati gerbang ke-6 adalah 1, dan bahwa setiap gerbang tambahan yang melewati (tidak termasuk gerbang ke-6) memberikan imbalan 0.2. Seorang agen pembelajaran Q awal mungkin akan mencoba angka 1-9 di gerbang pertama, gerbang kedua, dan seterusnya. Dia akan melakukannya sampai dia mencoba semua hasil yang mungkin dari pasangan nilai negara dan menerima semua imbalan untuk setiap kombinasi dari pasangan ini. Ia kemudian akan menetapkan untuk seri angka yang mengarah ke hadiah tertinggi, yang, seperti yang kita bisa katakan, adalah kombinasi yang benar 5-4-9-8-7-2, yang memberikan imbalan tertinggi dari 2.Q NilaiDengan mempelajari cara memaksimalkan nilai Q, Watkins menghipotesis, model akan dapat membuat keputusan optimal dalam lingkungan non-probabilistik.

DeepMind Steps In

Pada tahun 2013, para peneliti di laboratorium penelitian AI DeepMind mempublikasikan apa yang akan menjadikertas landmarkDokumen mereka menandai pengenalan salah satu jenis yang paling penting dari apa yang akan dikenal sebagai Reinforcement Learning (RL) model:Jaringan Deep-QPara peneliti mengakui kemampuan menggunakan Q Learning untuk melatih agen, tetapi mencatat bahwa sistem Watkins memiliki beberapa masalah.SemuaPasangan state-action yang mungkin tidak akan bekerja dalam permainan yang kompleks dengan jutaan kombinasi keputusan. Kedua, fungsi maksimizasi sederhana tidak akan bekerja, karena permainan yang lebih kompleks cenderung memilikiMaksimalkan LokasiMari kita katakan bahwa hadiah dari permainan labirin didefinisikan oleh panjang yang ditempuh pemain secara total menuju tujuan.Jika pasangan nilai Q pertama yang ditemukan agen RL Watkin adalah akhir mati, ia akan terus mengunjungi akhir mati itu karena tidak tahu lebih baik.

kertas landmark

Tim DeepMind memecahkan kedua masalah dengan cara yang cerdas. untuk mengurangi biaya komputasi dari menjalankan melalui semua opsi, mereka memperkenalkanEpsilon-Greedy yangMetode ini, yang diberi nama setelah huruf Yunani epsilon (Ɛ), menyeimbangkan WatkinKebijakan Cerdasselalu mengikuti penghargaan tertinggi yang diketahui denganKebijakan eksplorasiIde ini adalah bahwa, di setiap negara bagian, agen akan memiliki kesempatan untuk mengeksplorasi (pilih salah satu tindakan secara acak) dan kesempatan 1 - Ɛ untuk mengikuti nilai Q maksimum seperti yang didikte oleh kebijakan cemburu. Jika Anda tidak masuk ke penjelasan formal, ini pada dasarnya berarti bahwa model akan memiliki probabilitas yang ditetapkan untuk mencoba tindakan baru dari waktu ke waktu, perilaku yang berguna yang akan menghemat banyak waktu dengan berfokus pada maximization (sehingga pasangan tindakan negara kurang berharga dapat dilewatkan) sambil juga memungkinkan fleksibilitas dalam pengambilan keputusan (sehingga agen tidak terjebak pada maxima lokal).

Jika agen masih dalam proses menyelesaikan permainan, misalnya, bagaimana dia akan tahu bahwa tindakan tertentu akan langsung mengarah ke hasil yang lebih baik?KarenaUntuk itu, petugas harusprediksiDeepMind memperkenalkan cara baru dari apa yang mereka sebut “menghancurkan korelasi” antara negara-aksi pasangan denganJaringan QJaringan Q pada dasarnya adalah model pembelajaran mesin yang kompak di dalam DQN lengkap. satu-satunya tugas Jaringan Q adalah belajar dari pengalaman agen, dan, mengingat status,prediksiKembali ke contoh kami dengan gerbang dan kata sandi, Jaringan Q yang terlatih akan menghasilkan nilai Q yang lebih tinggi yang diprediksi untuk tindakan menebak nomor yang benar di setiap gerbang, daripada menebak nomor yang salah. Jaringan Q itu sendiri berkembang sepanjang proses pelatihan.Pengalaman Repeat, jaringan dapat dilatih pada serangkaian data yang diterima agen dari lingkungan, dan dengan demikian dapat menyesuaikan beban untuk lebih baik memprediksi nilai Q dan dengan demikian lebih efektif dalam " saran" yang ia berikan kepada agen.

All the World’s a Game…

Reinforcement Learning dalam bentuk murni telah memiliki banyak kemajuan. DeepMind, setelah akuisisi oleh Google pada tahun 2014, terus mengembangkanAlphaZero, salah satu model RL paling terkenal sepanjang masa. Dilatih menggunakan model distribusi probabilitas yang ditingkatkan olehMencari Pohon Monte CarloDengan menggunakan algoritma (MCTS), tim AlphaZero berhasil menyederhanakan varian dari model AlphaZero asli untuk berbagai tugas kompleks lainnya, termasuk:

AlphaZeroMencari Pohon Monte Carlo


  • AlphaGo, yang mengejutkan dunia dengan mengalahkan juara dunia yang berkuasa Go, Lee Sedol, dalam apa yang dianggap sebagai salah satu permainan papan yang paling kompleks yang pernah dibuat.
  • AlphaProof, varian yang didedikasikan untuk memecahkan masalah matematika Olimpiade dengan beroperasi pada bukti-bukti LEAN-formalisasi, mencapai Silver di tes benchmarking Olimpiade Matematika Internasional (IMO) simulasi.
  • AlphaFold, yang memenangkan pengembangan timnya Hadiah Nobel dalam Biologi pada tahun 2024, mencapai terobosan dalam melipat protein, salah satu aspek yang paling rumit dari biologi molekuler.

Konsep Reinforcement Learning memiliki banyak hal untuk mengajarkan kita tentang kehidupan: mencari tahu apa yang memiliki nilai tertinggi, dan berusaha untuk mencapai nilai itu melalui tindakan. Jika sesuatu tidak berjalan dengan cara Anda, cobalah sesuatu yang lain sampai berhasil. Manusia sering mengabaikan keripik sistem yang kami desain, dan itulah sebabnya saya suka Reinforcement Learning begitu banyak. Untuk sesuatu yang begitu sederhana dan brilian, potensinya dibatasi oleh (ironik) sifat kemanusiaan. Salah satu bagian paling penting dari proses RL, yaitu fungsi reward, ditetapkan oleh manusia. Melihat kembali pencapaian tim AlphaZero, jelas bahwa kita adalah faktor pembatasan dalam apa yang dapat dilakukan menggunakan RL. Tampaknya, karena AlphaZero dapat memecahkan hampir setiap permainan secara heuristik, satu-satunya hal yang tersisa untuk dilakukan adalah mengubah setiap masalah dunia menjadi permainan, dan memiliki AlphaZero memainkannya

Ketika saya pertama kali belajar tentang RL pada musim panas 2024, teknologi itu tidak memiliki terobosan besar sejak kemenangan tim AlphaZero pada tahun 2017. Semua orang berbicara tentang ChatGPT, tampaknya, serta Transformers baru yang telah mendominasi diskusi teknologi selama setengah tahun. Saya berpikir misterius tentang seberapa keren RL, dan kemudian saya melupakannya. Itu berarti, sampai OpenAI memiliki ide untuk menggabungkan arsitektur Transformer dengan Reinforcement Learning, menciptakan hibrida yang tidak suci yang saya suka sebut RL-LLMs, atau Reinforcement Learning-Large Language Models, untuk kesederhanaan. Sepertinya seperti tidak-brainer: diperkuat oleh paradigma yang disebut Reinforcement Learning with Human Feedback (HRLF), RL-M dapat memecahkan masalah dengan kekuatan transformator, dan deracerive menggunakan solusi berbasis umum Rastro-steMasalah Eksploitasi Pekerjadalam industri AI, sesuatu yang kita telah mencakup sebelumnya dan membela terhadap.

Masalah Eksploitasi Pekerja


Artikel ini dibawa kepada Anda oleh Kami AI, sebuah organisasi etika AI yang didirikan oleh siswa dan dipimpin oleh siswa yang berusaha untuk diversifikasi perspektif di AI melampaui apa yang biasanya dibahas di media modern.

Artikel ini dibawa kepada Anda oleh Kami AI, sebuah organisasi etika AI yang didirikan oleh siswa dan dipimpin oleh siswa yang berusaha untuk diversifikasi perspektif di AI melampaui apa yang biasanya dibahas di media modern.https://www.our-ai.org/ai-nexus/read!

Learn More

Dengan kata lain, RL memiliki jalan panjang untuk pergi sebelum mencapai potensi maksimumnya.Pengertian Rantai Pikiran (CoT)Banyak model RL tradisional harus dilatih untuk jutaan iterasi sebelum konvergensi, dengan cepat meningkatkan biaya jika lingkungan yang terkait besar atau terlalu kompleks, seperti halnya untuk memanipulasi solusi untuk masalah kompleks yang ditulis dalam bahasa alami. Untuk tujuan ini, model RL masa depan mungkin bergantung pada LLM (atau bahkan RL-LLM) untuk “gamify” masalah, seperti yang dilakukan tim AlphaZero untuk AlphaProof, mengkonversi persamaan yang mereka temui ke format bukti formal LEAN sehingga mereka dapat diselesaikan. Dengan ini, kita mungkin dapat memanfaatkan RL khusus lapangan jauh lebih murah dan efisien, meskipun ini adalah langkah mundur dari visi komersial yang diakui secara luas untuk menghasilkanKecerdasan Buatan Umum (AGI)Sekali lagi, RL dapat memecahkan masalah paling kompleks di dunia ... jika kita bisa mencari tahu bagaimana dengan cepat mengubahnya menjadi permainan.

Pengertian Rantai Pikiran (CoT)Kecerdasan Buatan Umum (AGI)

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks