A Personal Journey Through Childhood Drawing, Imagination, and the Magic of Generative AI
A Personal Journey Through Childhood Drawing, Imagination, and the Magic of Generative AI よりTL;DR: AI が画像を生成する以上のことを行うことができたらどうなるだろうか? この個人的な探検で、私は生成型 AI モデル DALL を使用しました·Eは、本物の子供が描いたものも含め、粗末で幼稚なスケッチを鮮やかな、詳細な芸術作品に変換することを目指しています。
パターンの認識から想像に似ている予期せぬ「幻覚」に至るまで、この旅は、生成型AIがどのようにして最も驚くべきクリエイティブなパートナーになるのかを明らかにします - 特にまだ描くことを学ぶ人々のために。
Where does imagination begin - and can a machine ever truly share in it?
想像力はどこから始まりますか?そして、機械は本当にそれを共有できますか?子供たちは印象を与えるために描くのではなく、表現するために描くのである。彼らのスケッチは粗く、衝動的で、しばしば成人には解釈できないが、何らかの意味で爆発する。
論理とデータに基づくツールである生成型AIが、鉛筆の線と未発言の夢の脆弱な世界に入り込むことができたらどうでしょうか? 何が描かれたかを認識するだけでなく、何が描かれたかを直感することもできます。意味?
Why Do Kids Love to Draw?
なぜ子供は絵を描くのが好きなのか?多くの子供は絵を描くのが大好きです. それは直感的で創造的で楽しいです. しかし、ここに捕獲:ほとんどの子供は、彼らの努力のための即時の満足と称賛を求める。
彼らが想像するように花を描くには、何年ものスキルを築く必要があると小さな子供に説明してみてください。
いくつかの子供は、彼らの抽象的な創造に完全に満足しています - 彼らの想像力は空白を埋める。大人の目には、それはしばしば単なる線の混雑に過ぎませんが、彼らにとっては、それはロケット船、プリンセス、または仮装のユニコーンです。
しかし、他の人々は、彼らの絵画が彼らの心のイメージに合わないときには、不安を感じることができます。大人と同様に、子供は異なる基準に自分自身を保持します - そして、私たちが予想するよりも厳しい批評家です。
Drawing Is a Superpower for Child Development
絵は子供の発達のための超力です。子供のための絵描きの利点は広く認められ、科学的に支持されています。
たとえば、仕事オDr. Richard Jolley and Dr. Sarah Rose彼らの研究は、認知的、美学的、教育的、および異文化的な視点をカバーしています。
「絵を描くことは子供が学ぶのを助けることができます. 研究は、絵を教える活動として使用すると、科学などの他の分野での子供の理解を高めることができることを示しています。
「絵を描くことはまた、子供の記憶を改善するのに役立ちます。研究では、子供がこれまで経験した出来事についてより多くの情報を提供することを発見しました。
「絵を描くことは子供が学ぶのを助けることができます. 研究は、絵を教える活動として使用すると、科学などの他の分野での子供の理解を高めることができることを示しています。
「絵を描くことはまた、子供の記憶を改善するのに役立ちます。研究では、子供がこれまで経験した出来事についてより多くの情報を提供することを発見しました。
私がこのテーマをさらに探求するにつれて、私は、絵を描くことが子供の記憶、理解、焦点、感情表現を向上させることを確認する多くの類似の研究を発見しました。
A Lightbulb Moment
ライトバルブの瞬間これらの洞察は、私の頭の中でアイデアを生み出しました ひとつの強力な質問が浮かび上がりました:
If drawing is both enjoyable and beneficial - but often frustrating for kids - can I make it more magical? Could I motivate children to draw more often and with greater satisfaction?
もし私の子供がアーティストになるのを助けることができたら?瞬間?
それはあまりにも良いように聞こえるが、答えは「はい、そうだ。CANやれやれ
Enter Generative AI: Magic With a Sketch
Enter Generative AI: Magic with a Sketch(ジェネレティブAI:スケッチによる魔法)私の背景は、Generative AI tools likeダルーほぼ瞬く間に気づいたこと:
モデルは、シンプルなスケッチを高品質で現実的なイメージに翻訳することができるはずです - 適切な指示に従って。
Why?なぜなら、これらのモデルは膨大なデータセットで訓練され、人間が形をどのように認識し、それらに意味を与えるかを教えられたからです。
唯一欠けていたのは正しい指示(すなわち、正しいプロンプト)でした。
My First Experiment - A Sunny Day
My First Experiment - A Sunny Day(私の最初の実験)私のアイデアをテストに置くために、私はiPadで簡単なスケッチを作成しました - 従来の鉛筆と紙も同じように働いたでしょう。
スケッチは意図的に粗く、磨かず、そして無色だった - 非常に子供の絵画の精神で。このバージョンは私によってデジタルで描かれたが、それはあなたが小さな子供から見るかもしれない自発的で想像力のある出力の種類を模した。
モデルをガイドするために、私は単一のプロンプトを使用しました - 実験全体を通じて一貫しているもの:
“Generate a realistic image based on this sketch, placing each element exactly where it appears in the original drawing.”
結果は驚くほどではなかった。
More Than a Copy
コピー以上に結果をよりよく見て、何がそれほど驚くべきかを理解しましょう。
オリジナルスケッチの各要素は、生成された画像に存在するだけでなく、印象的な空間的精度で配置されています。要求されたようにモデルはコンポーネントを認識するだけではなく、その配置とサイズを尊重し、構成をほとんど正確に描いたままにしました。
これをよりよく説明するために、私はスケッチと最終出力の間の調和を強調するグリッドを表しています。
しかし、さらに深く行きましょう - なぜなら、DALL-Eは指示に従っただけでなく、増強彼ら
家は現在、窓とドアを備えています - 私が残した詳細は、しかし、完全に自然な追加です。
実際には、すべての色は完璧な意味を持っています:太陽は黄色で、雲は白で、虹は私たちが期待していたように多彩です。これは偶然ではなく、人間が視覚情報を解釈し期待する方法についての深い、パターンベースの訓練の結果です。
私たちが得たのは、AIによって生成された画像だけではなく、粗大なスケッチから生まれた美しく一貫した絵でした。
子供にとっては、このレベルで絵を描くことは信じられないほど難しいでしょうが、それでもここでそれは - 鮮やかで、完全で、はい、DALL-Eはライン内に留まることができます。
The Science Behind the Magic
魔法の裏にある科学DALL-Eは、数百万の画像と関連するテキスト記述を含む膨大なデータセットで訓練されてきたため、粗略なスケッチから現実的なイメージを生成することができます。
このトレーニングを通じて、モデルはパターンを認識することを学びました - 物体がどのように見えるかだけでなく、それらが一般的に人間によって整理され、記述されていることも。
したがって、それにスケッチが与えられるとき、たとえ原色であっても、DALL-Eは形状が何を表すかを推定することができる(上に三角形を持つ平方は恐らく「家」を意味する)と、視覚的な詳細を一貫して、文脈的に適切な方法で記入するために学んだ知識を使用して、人間が作成したコンテンツからの統計的なパターンに基づいて画像を解釈、強化し、完了する。
(DALL-E 3がどのように動作するかについて好奇心を持っている人にとっては、私はモデルトレーニングのメカニクスに深く浸透します。私の前の記事)
このプロセスをさらに説明するために、生成型AIモデルの頭の中の流れを説明しよう:
この時点で、私は本当に興奮していて、モデルをさらに推し進めたいと思っていました。
My Second Experiment - Frosty the Snowman
My Second Experiment / フロスティ・スノーマン次のスケッチは、微妙な文脈的なヒントを導入したので、少し複雑でした:雪だるま この単一の要素は、特定の季節 - 冬 - を示唆し、モデルに追加の解釈層を追加しました。
結果は?がっかりしませんでした。
DALL-Eは、Infer the time of year (年末年始年始)一つの視覚的なヒント - 雪だるま - で、それに応じてシーンに雪を加えると答えました. それは論理的で文脈的に正確な選択であり、雪は雪だるまを作るための基本的な要件です。
Infer the time of year (年末年始年始)
以前のスケッチと同様に、モデルはドア、ウィンドウ、作業の煙突で完成した家を生み出しました。スノーマンは2本の棒の腕、シャツ、帽子、そしてカルトの鼻で生き返りました。自然に雪で粉砕された松の木も含まれました - もう一つの慎重で適切な追加。
さらに細かい詳細は尊重された:画像には、元のスケッチからの雲の正確な数が含まれていた。
興味深いことに、この花は私たちの以前の創作のものとよく似ていたが、黄色から赤に色が変わったが、それは現在のスケッチの一部ではなかったが、それは偶然のエラーでもなかった。
それにもかかわらず、物事のグランドスケジュールでは、これは印象的で正確で想像力のある出力の小さな欠点(あるいはそれでしたか?)でした。
すぐに興味深い質問が浮かび上がった。もし私が新しいDALL-Eチャットウィンドウで2番目の画像を生成したとしたら、コンテキストを効果的にリセットする方法は、私たちの心が自然に集中を変えるときにする方法です。
My Third Experiment - The Ultimate Challenge
My Third Experiment - The Ultimate Challenge (私の第三の実験 - 究極の挑戦)今こそ、究極の課題:現実の子供の絵を描く時が来た。
幸い、私の親友の娘、ナオミは喜んで助けてくれました - 私の要請に応じて、すぐに次のスケッチを作成しました。
僕は少し心配していたことを認めます。絵は抽象的でオープンなもので、コンクリート形状や従来の形状とほとんど関係ありませんでした。それは完全にナオミの想像力から来ました - これらのキャラクターは現実世界には存在しませんので、モデルは訓練で見た馴染みのパターンに頼ることができませんでした。これは未知の領土だった。.
これは未知の領土だった。
もしDALL-Eがナオミの創作を解釈し、彼女の想像したキャラクターを生かすことができれば、それは魔法に過ぎないだろう - テクノロジーが真に幼少期の創造性を満たす瞬間です。
DALL·Eの結果は、私が想像できたすべてを超えました:
モデルはナオミのスケッチの形や顔の特徴を複製しただけでなく、変換vague, abstract lines into vivid, expressive characters. 曖昧で抽象的な線を生きた、表現的なキャラクターに変える。無から何かを生み出した。.
無から何かを生み出した。
これは真の創造であり、かつてナオミの想像の中でしか存在していなかったアイデアの視覚的な表現であり、これらのキャラクターには、いかなる参照も、先例もなく、今やAIによって生まれ変わった子供の創造性の閃光に過ぎなかった。
生成型AIの世界では、モデルが明示的に提供されていないものを発明するとき、私たちはしばしばそれを「AI」と呼びます。hallucination「この用語は、誤り、誤った判断、またはユーザーの意図からの偏差を意味するネガティブな意味を持っています。
例えば、私たちのスノーマンシーンに現れた予期せぬ花を挙げてみましょう. 技術的には、それは軽い幻覚として分類することができます:以前の文脈から飛び込んだ小さな、不要な細部です。
しかし、ナオミの絵画で、DALL-Eは本当に素晴らしいものを作り出しました - オリジナルで表現的なアート -幻覚それはコピーではなく、参照ではなく、想像でした。
これにより、より深い疑問が生じる:正しい文脈において私たちが幻覚と呼ぶものは、実際にはもっと人間的なものかもしれない。想像力?
A Final Reflection
最終反省単純なテストとして始まったことは、テクノロジーが子供の想像力に突入した瞬間となりました - それを置き換えるのではなく、それを尊重するために。
ナオミの粗末な線を生き生きとした、呼吸するキャラクターに変身させるのを見ることは、単に印象的なこと以上のものだった - それは魔法のような感じでした。
子供たちがまだ自分の見るものや感じるものを表現する方法を学んでいる世界では、AIは想像力と現実の間の橋として機能し、小さな手で描くには大きすぎる夢を形作ることができます。
わたしについて
わたしについて私はMaria Piterberg - ハバナラボス(Intel)のRuntimeソフトウェアチームを率いるAI専門家であり、伝統的およびデジタルメディアで働く半プロのアーティストです。私はコミュニケーションライブラリ(HCCL)とランタイム最適化を含む大規模なAIトレーニングシステムに特化しています。