A Personal Journey Through Childhood Drawing, Imagination, and the Magic of Generative AI
Safari ya kibinafsi kupitia kuchora, mawazo, na uchawi wa AI ya uzalishajiTL;DR: Nini kama AI inaweza kufanya zaidi ya kuzalisha picha - nini kama inaweza kufikiri?·E kubadilisha rangi mbaya, kama watoto - ikiwa ni pamoja na moja kuchora na mtoto halisi - katika kazi ya sanaa ya kuvutia na ya kina. Kwa njia, nilifunza kwamba AI sio tu kuiga ubunifu wa binadamu; inaweza wakati mwingine kuimarisha.
Kutoka kutambua mifano hadi "halucinations" zisizotarajiwa ambazo zinaonekana zaidi kama mawazo, safari hii inaonyesha jinsi AI ya kuzalisha inaweza kuwa mpenzi wa ubunifu wa kushangaza zaidi - hasa kwa wale ambao bado wanajifunza kuchora.
Where does imagination begin - and can a machine ever truly share in it?
Ambapo mawazo huanza - na mashine inaweza kamwe kweli kushiriki katika hilo?Watoto hawana kuvutia ili kuvutia; wao kuvutia kuelezea. mipango yao ni nyekundu, ya kusisimua, na mara nyingi haijulikani kwa watu wazima - hata hivyo kwa namna fulani kuanguka na maana.
Nini kama AI ya kuzalisha, chombo kilichojengwa juu ya mantiki na data, inaweza kuingia ulimwengu usio na msimamo na ndoto zisizozungumza?maana ya?
Why Do Kids Love to Draw?
Kwa nini watoto wanapenda kuandika?Watoto wengi hupenda kuvutia. Ni intuitive, ubunifu, na furaha. Lakini hapa ni kupata: watoto wengi hupenda kuridhika mara moja na sifa kwa jitihada zao.
Jaribu kuelezea kwa mtoto mdogo kwamba kuchora maua kwa njia ambayo wanafikiri inahitaji miaka ya ujuzi wa kujenga.
Baadhi ya watoto wanafurahia kikamilifu na ubunifu wao abstract - mawazo yao kujaza upungufu. kwa macho ya watu wazima, ni mara nyingi tu jumble ya mistari, lakini kwao, ni meli ya roketi, princess, au unicorn katika mavazi.
Wengine, hata hivyo, wanaweza kujisikia wasiwasi wakati maandishi yao hayakubadilika na picha katika akili zao. Kama watu wazima, watoto wanahifadhiana na viwango tofauti - na baadhi yao ni wakosoaji wakali zaidi kuliko tulivyohitajika.
Drawing Is a Superpower for Child Development
Kuchora ni nguvu ya juu kwa maendeleo ya mtotoFaida za kuvutia kwa watoto zinajulikana sana - na kuungwa mkono kwa kisayansi.
Kwa mfano, kuchukuaKazi yayaDr. Richard Jolley and Dr. Sarah Rosewataalam wa maendeleo ya mtoto kutoka Chuo Kikuu cha Staffordshire. utafiti wao unajumuisha mtazamo wa utambuzi, esthetic, elimu, na utamaduni. Katika moja ya makala yao iliyochapishwa, wanaandika:
Utafiti unaonyesha kwamba kutumia kuvutia kama shughuli ya kufundisha inaweza kuongeza uelewa wa watoto katika maeneo mengine, kama vile sayansi. "
Utafiti umegundua kuwa watoto hutoa habari zaidi kuhusu tukio lililotokea awali wakati wanatakiwa kuandika kuhusu hilo wakati wanapozungumza juu yake.
Utafiti unaonyesha kwamba kutumia kuvutia kama shughuli ya kufundisha inaweza kuongeza uelewa wa watoto katika maeneo mengine, kama vile sayansi. "
Utafiti umegundua kuwa watoto hutoa habari zaidi kuhusu tukio lililotokea awali wakati wanatakiwa kuandika kuhusu hilo wakati wanapozungumza juu yake.
Nilipokuwa nikijaribu mada hii zaidi, nilifunza utajiri wa masomo kama hayo ambayo yanathibitisha kwamba kuvutia huongeza kumbukumbu, uelewa, kuzingatia, na kuonyesha hisia katika watoto.
A Lightbulb Moment
Siku ya LightbulbMaoni haya yalisababisha mawazo katika akili yangu. swali moja, yenye nguvu ilionekana:
If drawing is both enjoyable and beneficial - but often frustrating for kids - can I make it more magical? Could I motivate children to draw more often and with greater satisfaction?
Kama ningeweza kumsaidia mtoto wangu kuwa msaniikwa haraka?
Hii inaonekana kuwa nzuri sana kuwa kweli, lakini jibu ni:Unawezaya kufanya.
Enter Generative AI: Magic With a Sketch
Kuingia Generative AI: Magic na SketchPamoja na uzoefu wangu katika zana za AI kama vilekwa ajili yaNilijua kitu fulani karibu mara moja:
Mfano unapaswa kuwa na uwezo wa kutafsiri sketch rahisi katika picha ya ubora, halisi - ikiwa imeongozwa na maelekezo sahihi.
Why?Kwa sababu mifano hizi zilifundishwa juu ya seti kubwa ya data ambazo zilifundisha jinsi wanadamu wanavyoona fomu na kuwapa maana kwao.
Kitu pekee kilichopotea kilikuwa mwongozo sahihi (yaani, mwongozo sahihi).
My First Experiment - A Sunny Day
Mchezo wangu wa kwanza - Siku ya juaIli kuweka wazo langu kwa mtihani, niliunda sketch ya haraka kwenye iPad yangu - ingawa kalamu ya jadi na karatasi ingekuwa inafanya kazi pia.
Mchoro huo ulikuwa kwa makusudi mkali, usio na rangi, na usio na rangi - sana katika roho ya kuvutia ya mtoto. Wakati toleo hili lilikuwa limechapishwa na mimi kwa digital, ilionekana aina ya matokeo ya kujitegemea, ya mawazo ambayo unaweza kuona kutoka kwa mtoto mdogo.
Ili kuongoza mfano, nilitumia mwongozo mmoja - moja ambayo itabidi kudumu wakati wote wa majaribio:
“Generate a realistic image based on this sketch, placing each element exactly where it appears in the original drawing.”
Matokeo hayo yalikuwa si ya kushangaza.
More Than a Copy
Zaidi ya nakalaHebu tuangalie matokeo kwa karibu ili kuelewa nini kinachomfanya kuwa ya kushangaza.
Kila kipengele kutoka kwa sketch ya awali haipo tu katika picha iliyotengenezwa - lakini imewekwa na usahihi wa nafasi.Kama ilivyotakiwaMifano haikubali tu vipengele; iliheshimu kuweka na ukubwa wao, kuhifadhi muundo karibu kwa usahihi kama ilivyochapishwa.
Ili kuelezea hili vizuri, nimefungua grid ambayo inaonyesha usawa kati ya sketch na matokeo ya mwisho:
Lakini hebu tuendelee zaidi - kwa sababu DALL-E hakufuata tu maagizo,Kuongezekakwa ajili yao.
Nyumba sasa ina dirisha na mlango - maelezo niliyoacha, lakini kuongeza kabisa asili.
Pia ilizindua mbingu ya bluu na mboga ya kijani - chaguo la kawaida, la mantiki. Kwa kweli, rangi zote zina maana kamili: jua ni nyekundu, mawingu ni nyeupe, na umbo la mvua ni la rangi, kama tunavyotarajia.
Kile tulichokifanya hakukuwa tu picha iliyotengenezwa na AI - ilikuwa picha nzuri, ya pamoja, iliyozaliwa kutoka kwa sketch ngumu.
Kwa mtoto, kuzalisha rangi katika ngazi hii itakuwa vigumu sana. Na bado hapa ni - mkali, kamili, na vivyo hivyo, DALL-E hata inaweza kukaa ndani ya mstari.
The Science Behind the Magic
Sayansi nyuma ya uchawiDALL-E inaweza kuzalisha picha halisi kutoka kwa sketch mbaya kwa sababu imekuwa mafunzo juu ya seti kubwa ya data ambayo ina mamilioni ya picha na maelezo yao ya maandishi yanayohusiana.
Kwa njia ya mafunzo haya, mfano umejifunza kutambua miundo - sio tu katika jinsi vitu vinavyoonekana, lakini pia jinsi vinavyotengenezwa na kuandikwa na binadamu.
Hivyo, wakati anapewa rangi, hata ya dhahabu, DALL-E inaweza kuhitimisha kile maumbo yanawakilisha (msingi na mzunguko juu inaweza maana "nyumba") na kutumia ujuzi wake wa kujifunza ili kujaza maelezo ya kisayansi kwa njia inayofuata, inayofaa kwa mtazamo.
(Kwa wale ambao wanataka kujua jinsi DALL-E 3 inavyofanya kazi, ninajifunza zaidi katika mechanics ya mafunzo ya mfano katikaMakala yangu ya awali)
Hebu jaribu kuelezea mtiririko katika akili ya mfano wa AI ya uzalishaji ili kufafanua mchakato huo hata zaidi:
Wakati huu, nilikuwa na furaha ya kweli - na nilitaka kuendeleza mfano hata zaidi.
My Second Experiment - Frosty the Snowman
Mchezo wangu wa pili - Frosty SnowmanMakala inayofuata ilikuwa ngumu zaidi, kwa sababu ilizindua vidokezo vidogo vya mazingira: snowman. kipengele hiki kimoja kinaonyesha msimu maalum - majira ya baridi - ambayo inaongeza kiwango cha ziada cha ufafanuzi kwa mfano.
Matokeo yake haikuwa ya kushangaza.
Dall-e alikuwa na uwezo wachini ya wakati wa mwakakutoka kwa kipengele kimoja cha macho - snowman - na alijibu kwa mujibu huo kwa kuongeza theluji. Ni chaguo la mantiki na sahihi kwa mtazamo, kwa kuwa theluji ni mahitaji ya msingi ya kujenga snowman.
chini ya wakati wa mwaka
Kama ilivyo katika sketch ya awali, mfano ulizalisha nyumba kamili na mlango, dirisha, na umeme wa kazi. Msichana wa theluji alifufuliwa maisha na mikono miwili, nguo, hatari, na kichwa cha karoti. Mti wa pini, kwa asili umeme na theluji, pia ulihusishwa - kuongeza mwingine wa kufikiri na kufaa.
Maelezo mazuri zaidi yalikuwa yamechukuliwa: picha ilikuwa na idadi sahihi ya wingu kutoka kwa sketch ya awali.
Kwa wale ambao wanalipa tahadhari, kulikuwa na kuongeza moja isiyotarajiwa - maua. Kwa kuvutia, maua hii ilionekana karibu na moja kutoka kwa uumbaji wetu wa awali, ingawa na mabadiliko ya rangi kutoka rangi ya njano hadi nyekundu. Ingawa haikuwa sehemu ya sketch ya sasa, hakukuwa na makosa ya random pia. Inaonyesha aina ya "ukosefu wa kumbukumbu" kutoka kwa kikao cha awali - kipaji cha kuvutia cha tabia ya mfano.
Hata hivyo, katika mpango mkubwa wa mambo, hii ilikuwa upungufu mdogo (au ilikuwa?) katika matokeo yasiyo ya kuvutia na ya mawazo.
Swali la ajabu lilionekana haraka:Nini kama ningeweza kuunda picha ya pili katika dirisha jipya la mazungumzo ya DALL-E -kurekebisha mazingira kwa ufanisi, njia ambayo akili zetu hufanya kwa kawaida wakati wa kubadilisha lengo?
My Third Experiment - The Ultimate Challenge
Majaribio yangu ya tatu - changamoto ya mwishoSasa, ilikuwa wakati wa changamoto ya mwisho: kutumia risasi ya mtoto wa maisha halisi.
Kwa bahati nzuri, binti ya rafiki yangu bora, Naomi, alikuwa na furaha ya kusaidia - na kwa haraka alifanya sketch ifuatayo kwa ombi langu.
Ninakubali, nilikuwa na wasiwasi kidogo. Picha ilikuwa abstract na wazi, na kidogo katika njia ya fomu ya beton au fomu ya kawaida. Ilikuwa tu kutoka kwa mawazo ya Naomi - wahusika hawa hawana kuwepo katika ulimwengu halisi, hivyo mfano hawakuweza kutegemea mifano ya kawaida ambayo alikuwa akiona katika mafunzo.Ilikuwa ni ardhi isiyojulikana.
Ilikuwa ni ardhi isiyojulikana
Hata hivyo, nilijua hii ilikuwa jaribio halisi. Ikiwa DALL-E inaweza kutafsiri uumbaji wa Naomi na kuleta wahusika wake wa mawazo kwa maisha, itakuwa kitu kimoja isipokuwa uchawi - wakati ambapo teknolojia kweli kukutana na ubunifu wa utotoni.
Matokeo ya DALL·E yalikuwa zaidi ya chochote nilichoweza kufikiria:
Model haikupiga tu sura na vipengele vya uso kutoka kwa sketch ya Naomi - ilikuwaMuundo wavichwa vidogo, vichwa vya abstract katika tabia za kuvutia, za kuonyesha.Alitengeneza kitu kutoka kwa kitu chochote.
Alitengeneza kitu kutoka kwa kitu chochote
Hii ilikuwa uumbaji wa kweli: maonyesho ya maono ya wazo lililokuwa kabla tu katika mawazo ya Naomi. wahusika hawa hawakuwa na kumbukumbu, hakuna awali - tu kipande cha ubunifu wa mtoto, sasa kilichotolewa na AI.
Katika ulimwengu wa AI ya generative, wakati mfano unajifunza kitu ambacho hakikuwa kimsingi kilichotolewa, mara nyingi tunamwita "hallucinationJina hilo lina maana mbaya - inamaanisha makosa, hukumu mbaya, au kutokuwepo kwa nia ya mtumiaji.
Hebu tuchukue, kwa mfano, maua yasiyotarajiwa ambayo ilionekana katika mtazamo wetu wa snowman.Kutokana na kiufundi, hii inaweza kuwa ilichukuliwa kama hallucination ndogo: maelezo madogo yasiyotarajiwa ambayo yaliondoka kutoka kwa mazingira ya awali.
Lakini kwa maandishi ya Naomi, DALL-E aliunda kitu cha kipekee sana - sanaa ambayo ilikuwa ya awali na ya kuvutia - kwaya hallucinationHaikuwa nakala, haikuwa referencing; ilikuwa kufikiri.
Hii inasababisha swali kubwa zaidi:Katika mazingira sahihi, inaweza kile tunachoita hallucination kuwa kitu cha kibinadamu zaidi - kama vileImani ya?
A Final Reflection
Maoni ya MwishoKile kilichotokea kama jaribio rahisi kilibadilika kuwa kitu kinachoendelea sana: wakati ambapo teknolojia iliingia katika mawazo ya mtoto - sio kuibadilisha, lakini kumheshimu.
Kuangalia mstari wa rangi ya Naomi kuibadilika kuwa hai, tabia ya kupumua ilikuwa zaidi ya kuvutia - ilihisi kichawi.
Katika ulimwengu ambapo watoto bado wanajifunza jinsi ya kuonyesha kile wanachoona na kuhisi, AI inaweza kutumika kama daraja kati ya mawazo na ukweli, kuunda ndoto kubwa sana kwa mikono ndogo ya kuchora peke yake.
Kuhusu Mimi
Kuhusu MimiMimi ni Maria Piterberg - mtaalamu wa AI ambaye anaongoza timu ya programu ya Runtime huko Habana Labs (Intel) na msanii wa jumla wa kitaaluma anayefanya kazi katika vyombo vya jadi na digital. Mimi ni maalumu katika mifumo ya mafunzo ya AI ya ukubwa, ikiwa ni pamoja na maktaba ya mawasiliano (HCCL) na ufanisi wa runtime.