489 usomaji
489 usomaji

Nilifanya Dall-E kubadilisha mipango ya watoto katika picha halisi

kwa Maria Piterberg9m2025/07/03
Read on Terminal Reader

Ndefu sana; Kusoma

TL;DR: Nini kama AI inaweza kufanya zaidi kuliko kuzalisha picha - vipi ikiwa inaweza kufikiria? Katika uchunguzi huu wa kibinafsi, niliitumia mfano wa AI DALL·E wa kuzalisha ili kubadilisha mipango mbaya, ya kijana - ikiwa ni pamoja na moja iliyochapishwa na mtoto halisi - katika kazi ya sanaa ya kuvutia na ya kina. Kwa njia hiyo, nilifunza kwamba AI haina tu kuiga ubunifu wa binadamu; inaweza wakati mwingine kuimarisha. Kutoka kutambua mifano hadi "halucinations" zisizotarajiwa ambazo zinaonekana zaidi kama mawazo, safari hii inaonyesha jinsi AI ya kuzalisha inaweza kuwa mpenzi wa ubunifu wa kushangaza zaidi wa wote - hasa kwa wale ambao bado wanajifunza kuchora.
featured image - Nilifanya Dall-E kubadilisha mipango ya watoto katika picha halisi
Maria Piterberg HackerNoon profile picture
0-item


A Personal Journey Through Childhood Drawing, Imagination, and the Magic of Generative AI

Safari ya kibinafsi kupitia kuchora, mawazo, na uchawi wa AI ya uzalishaji

TL;DR: Nini kama AI inaweza kufanya zaidi ya kuzalisha picha - nini kama inaweza kufikiri?·E kubadilisha rangi mbaya, kama watoto - ikiwa ni pamoja na moja kuchora na mtoto halisi - katika kazi ya sanaa ya kuvutia na ya kina. Kwa njia, nilifunza kwamba AI sio tu kuiga ubunifu wa binadamu; inaweza wakati mwingine kuimarisha.


Kutoka kutambua mifano hadi "halucinations" zisizotarajiwa ambazo zinaonekana zaidi kama mawazo, safari hii inaonyesha jinsi AI ya kuzalisha inaweza kuwa mpenzi wa ubunifu wa kushangaza zaidi - hasa kwa wale ambao bado wanajifunza kuchora.

Where does imagination begin - and can a machine ever truly share in it?

Ambapo mawazo huanza - na mashine inaweza kamwe kweli kushiriki katika hilo?

Watoto hawana kuvutia ili kuvutia; wao kuvutia kuelezea. mipango yao ni nyekundu, ya kusisimua, na mara nyingi haijulikani kwa watu wazima - hata hivyo kwa namna fulani kuanguka na maana.


Nini kama AI ya kuzalisha, chombo kilichojengwa juu ya mantiki na data, inaweza kuingia ulimwengu usio na msimamo na ndoto zisizozungumza?maana ya?

Why Do Kids Love to Draw?

Kwa nini watoto wanapenda kuandika?

Watoto wengi hupenda kuvutia. Ni intuitive, ubunifu, na furaha. Lakini hapa ni kupata: watoto wengi hupenda kuridhika mara moja na sifa kwa jitihada zao.


Jaribu kuelezea kwa mtoto mdogo kwamba kuchora maua kwa njia ambayo wanafikiri inahitaji miaka ya ujuzi wa kujenga.


Baadhi ya watoto wanafurahia kikamilifu na ubunifu wao abstract - mawazo yao kujaza upungufu. kwa macho ya watu wazima, ni mara nyingi tu jumble ya mistari, lakini kwao, ni meli ya roketi, princess, au unicorn katika mavazi.


Wengine, hata hivyo, wanaweza kujisikia wasiwasi wakati maandishi yao hayakubadilika na picha katika akili zao. Kama watu wazima, watoto wanahifadhiana na viwango tofauti - na baadhi yao ni wakosoaji wakali zaidi kuliko tulivyohitajika.

Drawing Is a Superpower for Child Development

Kuchora ni nguvu ya juu kwa maendeleo ya mtoto

Faida za kuvutia kwa watoto zinajulikana sana - na kuungwa mkono kwa kisayansi.


Kwa mfano, kuchukuaKazi yayaDr. Richard Jolley and Dr. Sarah Rosewataalam wa maendeleo ya mtoto kutoka Chuo Kikuu cha Staffordshire. utafiti wao unajumuisha mtazamo wa utambuzi, esthetic, elimu, na utamaduni. Katika moja ya makala yao iliyochapishwa, wanaandika:


Utafiti unaonyesha kwamba kutumia kuvutia kama shughuli ya kufundisha inaweza kuongeza uelewa wa watoto katika maeneo mengine, kama vile sayansi. "

Utafiti umegundua kuwa watoto hutoa habari zaidi kuhusu tukio lililotokea awali wakati wanatakiwa kuandika kuhusu hilo wakati wanapozungumza juu yake.

Utafiti unaonyesha kwamba kutumia kuvutia kama shughuli ya kufundisha inaweza kuongeza uelewa wa watoto katika maeneo mengine, kama vile sayansi. "

Utafiti umegundua kuwa watoto hutoa habari zaidi kuhusu tukio lililotokea awali wakati wanatakiwa kuandika kuhusu hilo wakati wanapozungumza juu yake.


Nilipokuwa nikijaribu mada hii zaidi, nilifunza utajiri wa masomo kama hayo ambayo yanathibitisha kwamba kuvutia huongeza kumbukumbu, uelewa, kuzingatia, na kuonyesha hisia katika watoto.

A Lightbulb Moment

Siku ya Lightbulb

Maoni haya yalisababisha mawazo katika akili yangu. swali moja, yenye nguvu ilionekana:

If drawing is both enjoyable and beneficial - but often frustrating for kids - can I make it more magical? Could I motivate children to draw more often and with greater satisfaction?


Kama ningeweza kumsaidia mtoto wangu kuwa msaniikwa haraka?


Hii inaonekana kuwa nzuri sana kuwa kweli, lakini jibu ni:Unawezaya kufanya.

Enter Generative AI: Magic With a Sketch

Kuingia Generative AI: Magic na Sketch

Pamoja na uzoefu wangu katika zana za AI kama vilekwa ajili yaNilijua kitu fulani karibu mara moja:


Mfano unapaswa kuwa na uwezo wa kutafsiri sketch rahisi katika picha ya ubora, halisi - ikiwa imeongozwa na maelekezo sahihi.


Why?Kwa sababu mifano hizi zilifundishwa juu ya seti kubwa ya data ambazo zilifundisha jinsi wanadamu wanavyoona fomu na kuwapa maana kwao.


Kitu pekee kilichopotea kilikuwa mwongozo sahihi (yaani, mwongozo sahihi).

My First Experiment - A Sunny Day

Mchezo wangu wa kwanza - Siku ya jua

Ili kuweka wazo langu kwa mtihani, niliunda sketch ya haraka kwenye iPad yangu - ingawa kalamu ya jadi na karatasi ingekuwa inafanya kazi pia.


Mchoro huo ulikuwa kwa makusudi mkali, usio na rangi, na usio na rangi - sana katika roho ya kuvutia ya mtoto. Wakati toleo hili lilikuwa limechapishwa na mimi kwa digital, ilionekana aina ya matokeo ya kujitegemea, ya mawazo ambayo unaweza kuona kutoka kwa mtoto mdogo.

Child like sketch, generated by the author on iPad

Ili kuongoza mfano, nilitumia mwongozo mmoja - moja ambayo itabidi kudumu wakati wote wa majaribio:

“Generate a realistic image based on this sketch, placing each element exactly where it appears in the original drawing.”


Matokeo hayo yalikuwa si ya kushangaza.

A picture of a sunny day generated by DALL-E 3, based on an input of a rough sketch.

More Than a Copy

Zaidi ya nakala

Hebu tuangalie matokeo kwa karibu ili kuelewa nini kinachomfanya kuwa ya kushangaza.


Kila kipengele kutoka kwa sketch ya awali haipo tu katika picha iliyotengenezwa - lakini imewekwa na usahihi wa nafasi.Kama ilivyotakiwaMifano haikubali tu vipengele; iliheshimu kuweka na ukubwa wao, kuhifadhi muundo karibu kwa usahihi kama ilivyochapishwa.


Ili kuelezea hili vizuri, nimefungua grid ambayo inaonyesha usawa kati ya sketch na matokeo ya mwisho:

Lakini hebu tuendelee zaidi - kwa sababu DALL-E hakufuata tu maagizo,Kuongezekakwa ajili yao.


Nyumba sasa ina dirisha na mlango - maelezo niliyoacha, lakini kuongeza kabisa asili.


Pia ilizindua mbingu ya bluu na mboga ya kijani - chaguo la kawaida, la mantiki. Kwa kweli, rangi zote zina maana kamili: jua ni nyekundu, mawingu ni nyeupe, na umbo la mvua ni la rangi, kama tunavyotarajia.


Kile tulichokifanya hakukuwa tu picha iliyotengenezwa na AI - ilikuwa picha nzuri, ya pamoja, iliyozaliwa kutoka kwa sketch ngumu.


Kwa mtoto, kuzalisha rangi katika ngazi hii itakuwa vigumu sana. Na bado hapa ni - mkali, kamili, na vivyo hivyo, DALL-E hata inaweza kukaa ndani ya mstari.

The Science Behind the Magic

Sayansi nyuma ya uchawi

DALL-E inaweza kuzalisha picha halisi kutoka kwa sketch mbaya kwa sababu imekuwa mafunzo juu ya seti kubwa ya data ambayo ina mamilioni ya picha na maelezo yao ya maandishi yanayohusiana.


Kwa njia ya mafunzo haya, mfano umejifunza kutambua miundo - sio tu katika jinsi vitu vinavyoonekana, lakini pia jinsi vinavyotengenezwa na kuandikwa na binadamu.


Hivyo, wakati anapewa rangi, hata ya dhahabu, DALL-E inaweza kuhitimisha kile maumbo yanawakilisha (msingi na mzunguko juu inaweza maana "nyumba") na kutumia ujuzi wake wa kujifunza ili kujaza maelezo ya kisayansi kwa njia inayofuata, inayofaa kwa mtazamo.


(Kwa wale ambao wanataka kujua jinsi DALL-E 3 inavyofanya kazi, ninajifunza zaidi katika mechanics ya mafunzo ya mfano katikaMakala yangu ya awali)


Hebu jaribu kuelezea mtiririko katika akili ya mfano wa AI ya uzalishaji ili kufafanua mchakato huo hata zaidi:

Wakati huu, nilikuwa na furaha ya kweli - na nilitaka kuendeleza mfano hata zaidi.

My Second Experiment - Frosty the Snowman

Mchezo wangu wa pili - Frosty Snowman

Makala inayofuata ilikuwa ngumu zaidi, kwa sababu ilizindua vidokezo vidogo vya mazingira: snowman. kipengele hiki kimoja kinaonyesha msimu maalum - majira ya baridi - ambayo inaongeza kiwango cha ziada cha ufafanuzi kwa mfano.

Child like sketch, generated by the author on iPad

Matokeo yake haikuwa ya kushangaza.

A picture of a winter day generated by DALL-E 3, based on an input of a rough sketch.


Dall-e alikuwa na uwezo wachini ya wakati wa mwakakutoka kwa kipengele kimoja cha macho - snowman - na alijibu kwa mujibu huo kwa kuongeza theluji. Ni chaguo la mantiki na sahihi kwa mtazamo, kwa kuwa theluji ni mahitaji ya msingi ya kujenga snowman.

chini ya wakati wa mwaka


Kama ilivyo katika sketch ya awali, mfano ulizalisha nyumba kamili na mlango, dirisha, na umeme wa kazi. Msichana wa theluji alifufuliwa maisha na mikono miwili, nguo, hatari, na kichwa cha karoti. Mti wa pini, kwa asili umeme na theluji, pia ulihusishwa - kuongeza mwingine wa kufikiri na kufaa.


Maelezo mazuri zaidi yalikuwa yamechukuliwa: picha ilikuwa na idadi sahihi ya wingu kutoka kwa sketch ya awali.


Kwa wale ambao wanalipa tahadhari, kulikuwa na kuongeza moja isiyotarajiwa - maua. Kwa kuvutia, maua hii ilionekana karibu na moja kutoka kwa uumbaji wetu wa awali, ingawa na mabadiliko ya rangi kutoka rangi ya njano hadi nyekundu. Ingawa haikuwa sehemu ya sketch ya sasa, hakukuwa na makosa ya random pia. Inaonyesha aina ya "ukosefu wa kumbukumbu" kutoka kwa kikao cha awali - kipaji cha kuvutia cha tabia ya mfano.


Hata hivyo, katika mpango mkubwa wa mambo, hii ilikuwa upungufu mdogo (au ilikuwa?) katika matokeo yasiyo ya kuvutia na ya mawazo.


Swali la ajabu lilionekana haraka:Nini kama ningeweza kuunda picha ya pili katika dirisha jipya la mazungumzo ya DALL-E -kurekebisha mazingira kwa ufanisi, njia ambayo akili zetu hufanya kwa kawaida wakati wa kubadilisha lengo?

My Third Experiment - The Ultimate Challenge

Majaribio yangu ya tatu - changamoto ya mwisho

Sasa, ilikuwa wakati wa changamoto ya mwisho: kutumia risasi ya mtoto wa maisha halisi.


Kwa bahati nzuri, binti ya rafiki yangu bora, Naomi, alikuwa na furaha ya kusaidia - na kwa haraka alifanya sketch ifuatayo kwa ombi langu.

Naomi's sketch, pen on paper

Ninakubali, nilikuwa na wasiwasi kidogo. Picha ilikuwa abstract na wazi, na kidogo katika njia ya fomu ya beton au fomu ya kawaida. Ilikuwa tu kutoka kwa mawazo ya Naomi - wahusika hawa hawana kuwepo katika ulimwengu halisi, hivyo mfano hawakuweza kutegemea mifano ya kawaida ambayo alikuwa akiona katika mafunzo.Ilikuwa ni ardhi isiyojulikana.

Ilikuwa ni ardhi isiyojulikana


Hata hivyo, nilijua hii ilikuwa jaribio halisi. Ikiwa DALL-E inaweza kutafsiri uumbaji wa Naomi na kuleta wahusika wake wa mawazo kwa maisha, itakuwa kitu kimoja isipokuwa uchawi - wakati ambapo teknolojia kweli kukutana na ubunifu wa utotoni.


Matokeo ya DALL·E yalikuwa zaidi ya chochote nilichoweza kufikiria:

A picture generated by DALL-E 3, based on an input of a child sketch.

Model haikupiga tu sura na vipengele vya uso kutoka kwa sketch ya Naomi - ilikuwaMuundo wavichwa vidogo, vichwa vya abstract katika tabia za kuvutia, za kuonyesha.Alitengeneza kitu kutoka kwa kitu chochote.

Alitengeneza kitu kutoka kwa kitu chochote


Hii ilikuwa uumbaji wa kweli: maonyesho ya maono ya wazo lililokuwa kabla tu katika mawazo ya Naomi. wahusika hawa hawakuwa na kumbukumbu, hakuna awali - tu kipande cha ubunifu wa mtoto, sasa kilichotolewa na AI.


Katika ulimwengu wa AI ya generative, wakati mfano unajifunza kitu ambacho hakikuwa kimsingi kilichotolewa, mara nyingi tunamwita "hallucinationJina hilo lina maana mbaya - inamaanisha makosa, hukumu mbaya, au kutokuwepo kwa nia ya mtumiaji.


Hebu tuchukue, kwa mfano, maua yasiyotarajiwa ambayo ilionekana katika mtazamo wetu wa snowman.Kutokana na kiufundi, hii inaweza kuwa ilichukuliwa kama hallucination ndogo: maelezo madogo yasiyotarajiwa ambayo yaliondoka kutoka kwa mazingira ya awali.


Lakini kwa maandishi ya Naomi, DALL-E aliunda kitu cha kipekee sana - sanaa ambayo ilikuwa ya awali na ya kuvutia - kwaya hallucinationHaikuwa nakala, haikuwa referencing; ilikuwa kufikiri.


Hii inasababisha swali kubwa zaidi:Katika mazingira sahihi, inaweza kile tunachoita hallucination kuwa kitu cha kibinadamu zaidi - kama vileImani ya?

A Final Reflection

Maoni ya Mwisho

Kile kilichotokea kama jaribio rahisi kilibadilika kuwa kitu kinachoendelea sana: wakati ambapo teknolojia iliingia katika mawazo ya mtoto - sio kuibadilisha, lakini kumheshimu.


Kuangalia mstari wa rangi ya Naomi kuibadilika kuwa hai, tabia ya kupumua ilikuwa zaidi ya kuvutia - ilihisi kichawi.


Katika ulimwengu ambapo watoto bado wanajifunza jinsi ya kuonyesha kile wanachoona na kuhisi, AI inaweza kutumika kama daraja kati ya mawazo na ukweli, kuunda ndoto kubwa sana kwa mikono ndogo ya kuchora peke yake.


Kuhusu Mimi

Kuhusu Mimi

Mimi ni Maria Piterberg - mtaalamu wa AI ambaye anaongoza timu ya programu ya Runtime huko Habana Labs (Intel) na msanii wa jumla wa kitaaluma anayefanya kazi katika vyombo vya jadi na digital. Mimi ni maalumu katika mifumo ya mafunzo ya AI ya ukubwa, ikiwa ni pamoja na maktaba ya mawasiliano (HCCL) na ufanisi wa runtime.

L O A D I N G
. . . comments & more!

About Author

Maria Piterberg HackerNoon profile picture
Maria Piterberg@maria piterberg
SW AI Team Lead at Habana Labs (Intel) specialising in AI training Runtime | Expert in distributed training & communication libraries (HCCL) | B.Sc in Computer Science | Digital and traditional artist

HANG TAGS

MAKALA HII ILIWASILISHWA NDANI...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks