A Personal Journey Through Childhood Drawing, Imagination, and the Magic of Generative AI
การเดินทางส่วนบุคคลผ่านการวาดภาพวัยเด็กความจินตนาการและความมหัศจรรย์ของ AI ที่สร้างขึ้นTL;DR: อะไรถ้า AI สามารถทํามากกว่าการสร้างภาพ - อะไรถ้ามันสามารถจินตนาการได้? ในการสํารวจส่วนบุคคลนี้ฉันใช้รุ่น AI ที่สร้างขึ้น DALL·E เพื่อเปลี่ยนภาพวาดที่หยาบคายคล้ายเด็ก ๆ - รวมถึงภาพวาดที่วาดโดยเด็กจริง - เป็นงานศิลปะที่สดใสและละเอียดอ่อน ในขณะที่ฉันค้นพบว่า AI ไม่เพียง แต่จําลองความคิดสร้างสรรค์ของมนุษย์ แต่บางครั้งก็สามารถขยายได้
จากการรับรู้แบบจําลองไปจนถึง "ความลึกลับ" ที่คาดหวังซึ่งรู้สึกเหมือนความจินตนาการมากขึ้นการเดินทางนี้แสดงให้เห็นว่า AI ที่สร้างขึ้นอาจกลายเป็นพันธมิตรสร้างสรรค์ที่น่าประหลาดใจที่สุดของทั้งหมด - โดยเฉพาะอย่างยิ่งสําหรับผู้ที่ยังคงเรียนรู้ที่จะวาดภาพ
Where does imagination begin - and can a machine ever truly share in it?
ความจินตนาการเริ่มต้นจากไหน - และเครื่องสามารถแบ่งปันมันได้อย่างไรเด็ก ๆ ไม่วาดเพื่อสร้างความประทับใจ พวกเขาวาดเพื่อแสดงออก การวาดภาพของพวกเขาเป็นวัตถุดิบแรงกระตุ้นและมักไม่สามารถกําหนดได้กับผู้ใหญ่ - แต่ในทางใด ๆ ระเบิดด้วยความหมาย
อะไรถ้าอัจฉริยะอัจฉริยะที่สร้างขึ้นซึ่งเป็นเครื่องมือที่สร้างขึ้นบนเหตุผลและข้อมูลสามารถเข้าสู่โลกที่อ่อนแอของเส้นปากกาและความฝันที่ไม่ได้พูดได้หรือไม่หมายถึง?
Why Do Kids Love to Draw?
ทําไมเด็ก ๆ รักวาดภาพเด็กจํานวนมากรักการวาดภาพ มันเป็นรูปลักษณ์สร้างสรรค์และสนุก แต่นี่คือการจับ: เด็กส่วนใหญ่ต้องการความพึงพอใจทันทีและคําชมสําหรับความพยายามของพวกเขา
ลองอธิบายให้เด็กเล็กว่าการวาดดอกไม้ในลักษณะที่พวกเขาจินตนาการต้องใช้เวลาหลายปีในการสร้างทักษะ ไม่ง่าย
เด็กบางคนพอใจกับความคิดสร้างสรรค์ของพวกเขาอย่างสมบูรณ์แบบ - ความจินตนาการของพวกเขาจะบรรจุช่องว่าง สําหรับดวงตาของผู้ใหญ่มักจะเป็นเพียงการยึดของเส้น แต่สําหรับพวกเขามันเป็นเรือหุ่นยนต์เจ้าหญิงหรือมังสวิรัติ
อย่างไรก็ตามคนอื่น ๆ อาจรู้สึกหงุดหงิดเมื่อวาดภาพของพวกเขาไม่ตรงกับภาพในใจของพวกเขา เช่นเดียวกับผู้ใหญ่เด็ก ๆ เก็บตัวเองกับมาตรฐานที่แตกต่างกัน - และบางคนมีความวิจารณ์ที่รุนแรงกว่าที่เราคาดหวัง
Drawing Is a Superpower for Child Development
การวาดภาพเป็นพลังที่เหนือกว่าสําหรับการพัฒนาของเด็กประโยชน์ของการวาดภาพสําหรับเด็กได้รับการยอมรับอย่างแพร่หลาย - และได้รับการสนับสนุนทางวิทยาศาสตร์
ใช้ตัวอย่างเช่นการทํางานของDr. Richard Jolley and Dr. Sarah Roseผู้เชี่ยวชาญด้านการพัฒนาเด็กจาก Staffordshire University การวิจัยของพวกเขาครอบคลุมมุมมองทางความรู้ความงามการศึกษาและวัฒนธรรมระหว่างวัฒนธรรม ในหนึ่งในบทความที่เผยแพร่พวกเขาเขียน:
“การวาดภาพสามารถช่วยให้เด็กเรียนรู้ การวิจัยแสดงให้เห็นว่าการใช้วาดภาพเป็นกิจกรรมการสอนสามารถเพิ่มความเข้าใจของเด็กในด้านอื่น ๆ เช่นวิทยาศาสตร์”
“การวาดภาพยังสามารถช่วยปรับปรุงหน่วยความจําของเด็กได้ การวิจัยพบว่าเด็กให้ข้อมูลเพิ่มเติมเกี่ยวกับเหตุการณ์ที่ได้รับประสบการณ์ก่อนหน้านี้เมื่อขอให้วาดภาพเกี่ยวกับมันในขณะที่พูดคุยเกี่ยวกับมัน”
“การวาดภาพสามารถช่วยให้เด็กเรียนรู้ การวิจัยแสดงให้เห็นว่าการใช้วาดภาพเป็นกิจกรรมการสอนสามารถเพิ่มความเข้าใจของเด็กในด้านอื่น ๆ เช่นวิทยาศาสตร์”
“การวาดภาพยังสามารถช่วยปรับปรุงหน่วยความจําของเด็กได้ การวิจัยพบว่าเด็กให้ข้อมูลเพิ่มเติมเกี่ยวกับเหตุการณ์ที่ได้รับประสบการณ์ก่อนหน้านี้เมื่อขอให้วาดภาพเกี่ยวกับมันในขณะที่พูดคุยเกี่ยวกับมัน”
และผลลัพธ์เหล่านี้ไกลจากแยกต่างหาก ในขณะที่ฉันสํารวจหัวข้อนี้ต่อไปฉันค้นพบการศึกษาที่คล้ายกันมากมายที่ยืนยันว่าการวาดภาพช่วยเพิ่มหน่วยความจําความเข้าใจการมุ่งเน้นและการแสดงออกทางอารมณ์ในเด็ก
A Lightbulb Moment
ช่วงเวลา Lightbulbความเห็นเหล่านี้กระตุ้นความคิดในใจของฉัน คําถามเดียวที่แข็งแกร่งเกิดขึ้น:
If drawing is both enjoyable and beneficial - but often frustrating for kids - can I make it more magical? Could I motivate children to draw more often and with greater satisfaction?
สิ่งที่ถ้าฉันสามารถช่วยให้ลูกของฉันกลายเป็นศิลปินทันที?
มันเกือบจะดูดีเกินไปที่จะเป็นความจริง แต่คําตอบคือ - ใช่สามารถทําได้
Enter Generative AI: Magic With a Sketch
Enter Generative AI: Magic ด้วย Sketchด้วยพื้นหลังของฉันในการสร้างเครื่องมือ AI เช่นดิลโด้, ฉันสังเกตเห็นสิ่งที่เกือบทันที:
โมเดลควรจะสามารถแปลภาพวาดที่เรียบง่ายลงในภาพที่มีคุณภาพสูงและเป็นจริง - หากมีการแนะนําตามคําแนะนําที่เหมาะสม
Why?เพราะโมเดลเหล่านี้ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่ที่สอนพวกเขาว่ามนุษย์รับรู้รูปร่างและกําหนดความหมายให้กับพวกเขา
สิ่งเดียวที่ขาดหายไปคือคําแนะนําที่ถูกต้อง (เช่นคําแนะนําที่ถูกต้อง)
My First Experiment - A Sunny Day
การทดลองครั้งแรกของฉัน - A Sunny Dayเพื่อทดสอบความคิดของฉันฉันได้สร้างสคริปต์ที่รวดเร็วบน iPad ของฉัน - แม้ว่ากระดาษและปากกาแบบดั้งเดิมจะทํางานได้เป็นอย่างดี ฉันตั้งใจให้เรียบง่าย แต่ยังรวมองค์ประกอบที่แตกต่างกันหลายอย่างเพื่อท้าทายความสามารถในการตีความของรุ่น
การวาดภาพนั้นมีวัตถุประสงค์ค่อนข้างหยาบคายและไม่มีสี - อย่างมากในจิตวิญญาณของการวาดภาพของเด็ก ในขณะที่รุ่นนี้ถูกวาดโดยฉันแบบดิจิตอลก็จําลองการส่งออกแบบ spontaneous, imaginative ที่คุณอาจเห็นจากเด็กเล็ก
เพื่อแนะนํารุ่นฉันใช้คําแนะนําเดียว - หนึ่งที่จะยังคงสอดคล้องตลอดการทดลองทั้งหมด:
“Generate a realistic image based on this sketch, placing each element exactly where it appears in the original drawing.”
ผลลัพธ์ไม่น้อยกว่าที่น่าตื่นตาตื่นใจ
More Than a Copy
มากกว่าสําเนาลองดูผลลัพธ์อย่างใกล้ชิดเพื่อเข้าใจสิ่งที่ทําให้มันน่าทึ่ง
แต่ละองค์ประกอบจากสแกนต้นฉบับไม่เพียง แต่มีอยู่ในภาพที่สร้างขึ้น แต่ยังวางตําแหน่งด้วยความแม่นยําพื้นที่ที่น่าประทับใจเช่นเดียวกับคําขอโมเดลไม่ได้รับรู้เพียงส่วนประกอบเท่านั้น แต่ก็เคารพตําแหน่งและขนาดของส่วนประกอบโดยการรักษาองค์ประกอบเกือบอย่างแม่นยํา
เพื่ออธิบายสิ่งนี้ได้ดีขึ้นฉันได้เคลือบกริดที่เน้นการจัดตําแหน่งระหว่างสแกนและผลลัพธ์สุดท้าย:
แต่เรากําลังไปลึกซึ้งขึ้น - เพราะ DALL-E ไม่เพียง แต่ปฏิบัติตามคําแนะนํา แต่ก็ปรับปรุงพวกเขา
บ้านตอนนี้มีหน้าต่างและประตู - รายละเอียดที่ฉันปล่อยให้ออก แต่ยังเพิ่มธรรมชาติอย่างสมบูรณ์แบบ แบบจําลองเข้าใจว่า "บ้าน" ควรรวมและเติมในช่องว่าง
นอกจากนี้ยังแนะนําฟ้าและหญ้าสีเขียว - ตัวเลือกที่คลาสสิกและตรรกะ ในความเป็นจริงสีทั้งหมดมีความหมายที่สมบูรณ์แบบ: ดวงอาทิตย์เป็นสีเหลืองคลาวด์เป็นสีขาวและสวรรค์มีหลายสีเช่นเดียวกับที่เราคาดหวัง นี่ไม่ใช่การสุ่ม - มันเป็นผลมาจากการฝึกอบรมอย่างลึกซึ้งตามรูปแบบเกี่ยวกับวิธีการที่มนุษย์อธิบายและคาดหวังข้อมูลภาพ
สิ่งที่เราจบลงไม่ได้เป็นเพียงภาพที่สร้างขึ้นโดยอัจฉริยะอัจฉริยะ - มันเป็นภาพที่สวยงามและสอดคล้องกันเกิดจากภาพวาดที่รุนแรง
สําหรับเด็กการผลิตภาพวาดในระดับนี้จะเป็นเรื่องยากอย่างไม่น่าเชื่อ และอย่างไรก็ตามที่นี่มันเป็น - มีชีวิตชีวาสมบูรณ์และใช่ DALL-E ยังจัดการที่จะอยู่ภายในเส้น
The Science Behind the Magic
วิทยาศาสตร์ที่อยู่เบื้องหลัง MagicDALL-E สามารถสร้างภาพที่สมจริงได้จากสแกนสั้นเนื่องจากได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่ที่มีภาพล้านภาพและคําอธิบายข้อความที่เกี่ยวข้อง
ผ่านการฝึกอบรมนี้รุ่นได้เรียนรู้ที่จะรับรู้รูปแบบ - ไม่เพียง แต่ในลักษณะของวัตถุ แต่ยังในลักษณะที่พวกเขามักจะจัดและอธิบายโดยมนุษย์
ดังนั้นเมื่อได้รับสคริปต์แม้กระทั่งสคริปต์ดิบ DALL-E สามารถสรุปสิ่งที่รูปร่างแสดงให้เห็น (สี่เหลี่ยมที่มีสามเหลี่ยมด้านบนอาจหมายความว่า "บ้าน") และใช้ความรู้ที่ได้รับเพื่อเติมรายละเอียดทางภาพในลักษณะที่สอดคล้องกันและเหมาะสมกับ contextually มันไม่เพียง แต่คัดลอก; มันตีความเสริมสร้างและสมบูรณ์ภาพขึ้นอยู่กับรูปแบบสถิติจากเนื้อหาที่สร้างขึ้นโดยมนุษย์
(สําหรับผู้ที่อยากรู้วิธีการทํางานของ DALL-E 3 ฉันเจาะลึกเข้าไปในกลไกของการฝึกอบรมแบบจําลองในบทความก่อนหน้านี้)
ลองลองแสดงให้เห็นถึงการไหลในใจของรุ่น AI ที่สร้างขึ้นเพื่ออธิบายกระบวนการต่อไป:
ในขณะนี้ฉันรู้สึกตื่นเต้นอย่างแท้จริง - และหวังว่าจะกระตุ้นรุ่นต่อไป
My Second Experiment - Frosty the Snowman
การทดลองครั้งที่สองของฉัน - Frosty คนหิมะการวาดภาพถัดไปมีความซับซ้อนขึ้นเล็กน้อยเนื่องจากนําเสนอแนวทางพื้นฐานที่ละเอียดอ่อน: คนหิมะ องค์ประกอบเดียวนี้แสดงให้เห็นถึงฤดูกาลที่เฉพาะเจาะจง - ฤดูหนาว - ซึ่งเพิ่มชั้นเพิ่มเติมของการตีความสําหรับรุ่น
ผลลัพธ์? ไม่ผิดหวัง
DALL-E สามารถลงเวลาของปีจากแนวทางภาพเดียว - คนหิมะ - และตอบสนองโดยการเพิ่มหิมะลงในสถานการณ์ มันเป็นทางเลือกที่สมเหตุสมผลและตรงกันข้ามเนื่องจากหิมะเป็นข้อกําหนดพื้นฐานสําหรับการสร้างคนหิมะ
ลงเวลาของปี
เช่นเดียวกับในภาพวาดก่อนหน้านี้รุ่นที่สร้างขึ้นบ้านที่สมบูรณ์แบบด้วยประตูหน้าต่างและเตาอบทํางาน คนหิมะถูกนํามาสู่ชีวิตด้วยแขนสองถุงมือเชือกหมวกและหัวมะเขือเทศ ต้นไม้พินซึ่งเป็นธรรมชาติฝุ่นด้วยหิมะยังรวม - อีกหนึ่งการเพิ่มความคิดและเหมาะสม
รายละเอียดที่ละเอียดอ่อนยิ่งขึ้นได้รับการเคารพ: ภาพประกอบด้วยจํานวนคลาวด์ที่แน่นอนจากสแกนต้นฉบับ
สําหรับผู้ที่ให้ความสนใจอย่างใกล้ชิดก็มีส่วนผสมที่ไม่คาดคิดหนึ่งดอกไม้ ที่น่าสนใจคือดอกไม้นี้คล้ายคลึงกันอย่างใกล้ชิดกับดอกไม้จากการสร้างก่อนหน้านี้ของเราแม้ว่าจะมีการเปลี่ยนแปลงสีจากสีเหลืองเป็นสีแดง แม้ว่ามันไม่ได้เป็นส่วนหนึ่งของภาพวาดปัจจุบัน แต่ก็ไม่ได้เป็นข้อผิดพลาดแบบสุ่มเช่นกัน มันแสดงให้เห็นถึงชนิดของ "การรั่วไหลของหน่วยความจํา" จากการประชุมก่อนหน้านี้
อย่างไรก็ตามในแผนภาพขนาดใหญ่ของสิ่งนี้เป็นข้อบกพร่องเล็ก ๆ น้อย ๆ (หรือเป็น?) ในผลผลิตที่แม่นยําและจินตนาการอย่างน่าประทับใจ
คําถามที่น่าตื่นเต้นเกิดขึ้นอย่างรวดเร็ว:อะไรถ้าฉันได้สร้างภาพที่สองในหน้าต่างแชทใหม่ DALL-E -การรีเซ็ตพื้นฐานอย่างมีประสิทธิภาพวิธีที่จิตใจของเราทําตามธรรมชาติเมื่อเปลี่ยนโฟกัสหรือไม่?
My Third Experiment - The Ultimate Challenge
การทดลองที่สามของฉัน - ความท้าทายสุดท้ายตอนนี้มันเป็นเวลาสําหรับความท้าทายสุดท้าย: ใช้ภาพวาดของเด็กในชีวิตจริง
โชคดีที่ลูกสาวของเพื่อนที่ดีที่สุดของฉัน Naomi มีความสุขที่จะช่วย - และรวดเร็วผลิตสแกนดังต่อไปนี้ตามคําขอของฉัน
ฉันยอมรับว่าฉันกังวลเล็กน้อย การวาดภาพนั้นเป็นเรื่องอักเสบและเปิดและมีแนวโน้มที่จะมีรูปร่างคอนกรีตหรือรูปร่างแบบดั้งเดิม มันมาจากความคิดของ Naomi ทั้งหมด - ตัวละครเหล่านี้ไม่ได้มีอยู่ในโลกจริงดังนั้นรุ่นจึงไม่สามารถพึ่งพารูปแบบที่คุ้นเคยได้ในระหว่างการฝึกอบรมนี่เป็นดินแดนที่ไม่ระบุไว้.
นี่เป็นดินแดนที่ไม่ระบุไว้
อย่างไรก็ตามฉันรู้ว่านี่คือการทดสอบที่แท้จริง หาก DALL-E สามารถตีความการสร้างสรรค์ของ Naomi และนําตัวละครที่จินตนาการของเธอไปสู่ชีวิตก็จะเป็นอะไรน้อยกว่าความมหัศจรรย์ - ช่วงเวลาที่เทคโนโลยีจริง ๆ จะพบกับความคิดสร้างสรรค์ในวัยเด็ก มันจะเป็นในทุกแง่ความฝันที่เกิดขึ้นจริง
ผลลัพธ์จาก DALL·E ขึ้นอยู่กับทุกอย่างที่ฉันสามารถจินตนาการได้:
รุ่นไม่เพียง แต่ซ้ํารูปร่างและลักษณะใบหน้าจากภาพวาดของ Naomi - มันแปลงเส้นลื่นตาตื่นตาตื่นตาตื่นตาตื่นตาตื่นตาตื่นตาตื่นตาตื่นใจสร้างสิ่งบางอย่างจากไม่มีอะไร.
สร้างสิ่งบางอย่างจากไม่มีอะไร
นี่คือการสร้างที่แท้จริง: การปรากฏตัวทางภาพของความคิดที่ก่อนหน้านี้มีอยู่เฉพาะในจินตนาการของ Naomi ตัวละครเหล่านี้ไม่มีการอ้างอิงไม่มีเหตุการณ์ก่อนหน้านี้ - เพียงสกรูของความคิดสร้างสรรค์ของเด็ก, ตอนนี้นําไปสู่ชีวิตโดย AI
ในโลกของอัจฉริยะอัจฉริยะที่สร้างขึ้นเมื่อโมเดลคิดค้นสิ่งบางอย่างที่ไม่ระบุไว้อย่างชัดเจนเรามักจะเรียกว่า "hallucination"คําว่ามีความหมายเชิงลบ - หมายถึงข้อผิดพลาดการตัดสินผิดพลาดหรือการยกเว้นจากความตั้งใจของผู้ใช้
ใช้ตัวอย่างเช่นดอกไม้ที่ไม่คาดคิดที่ปรากฏในสถานการณ์ของคนหิมะของเรา โดยทางเทคนิคสิ่งนี้สามารถจําแนกได้ว่าเป็นความหลงใหลเบา: รายละเอียดเล็ก ๆ น้อย ๆ ที่ไม่ได้รับคําขอที่เลื่อนเข้าไปจากพื้นฐานก่อนหน้านี้
แต่ด้วยภาพวาดของ Naomi DALL-E สร้างสิ่งบางอย่างที่โดดเด่นจริงๆ - ศิลปะที่เป็นต้นฉบับและแสดงออก - โดยแฮลูซีนมันไม่ได้คัดลอกมันไม่ได้เป็นอ้างอิง มันเป็นจินตนาการ
สิ่งนี้ทําให้เกิดคําถามที่ลึกซึ้งขึ้น:ในสภาพแวดล้อมที่เหมาะสมสิ่งที่เราเรียกว่าความลึกลับอาจเป็นสิ่งบางอย่างที่มนุษย์มากขึ้นเช่นจินตนาการ?
A Final Reflection
ความคิดสุดท้ายสิ่งที่เริ่มต้นเป็นทดสอบง่ายๆกลายเป็นสิ่งที่กระตุ้นอย่างลึกซึ้ง: ช่วงเวลาที่เทคโนโลยีเข้าสู่ความคิดของเด็ก - ไม่แทนที่มัน แต่เพื่อเคารพมัน
การดูสายรัดของ Naomi กลายเป็นตัวละครที่มีชีวิตชีวาและหายใจเป็นมากกว่าที่น่าประทับใจ - มันรู้สึกมหัศจรรย์
ในโลกที่เด็กยังคงเรียนรู้วิธีการแสดงออกสิ่งที่พวกเขาเห็นและรู้สึก AI สามารถทําหน้าที่เป็นสะพานระหว่างจินตนาการและความเป็นจริงให้รูปร่างถึงความฝันที่ใหญ่เกินไปสําหรับมือเล็ก ๆ ที่สามารถวาดได้ด้วยตัวเอง และอาจเป็นส่วนที่สวยงามที่สุด - การตระหนักถึงว่าเมื่อใช้กับความระมัดระวัง AI ไม่ทําให้ความคิดสร้างสรรค์ของมนุษย์เบื่อ; มันเสริมสร้างความคิดสร้างสรรค์หนึ่งครั้ง
เกี่ยวกับฉัน
เกี่ยวกับฉันฉันเป็น Maria Piterberg - ผู้เชี่ยวชาญด้าน AI ที่นําทีมงานซอฟต์แวร์ Runtime ที่ Habana Labs (Intel) และศิลปินครึ่งมืออาชีพที่ทํางานผ่านสื่อแบบดั้งเดิมและดิจิตอล ฉันเชี่ยวชาญในระบบการฝึกอบรม AI ขนาดใหญ่รวมถึงห้องสมุดการสื่อสาร (HCCL) และการเพิ่มประสิทธิภาพการทํางาน Bachelor of Computer Science