TL;DR:DALL·Eのような生成型AIモデルは、テキストから即時画像生成を可能にするデジタルアートを再構築しています。
数年前、デジタルアートを作成するには、複雑なツール、高価な機器、そして数週間、もしくは数ヶ月の実践が必要でした。今日、簡単な言葉と数秒で、人工知能は、かつて芸術家が作るのに何日かかかっていた絵を描くことができます。
From Brushstrokes to Pixels: The Traditional Digital Artist’s Journey
From Brushstrokes to Pixels: The Traditional Digital Artist's Journey(ブラッシュストロークからピクセルへ:伝統的なデジタルアーティストの旅)デジタルアーティストになるには、目に見えるものよりもはるかに多くのことを要求します。
アーティストとして、デジタル創作への移行はシームレスでもなく、安価でもなく、適切なハードウェアを選択することから始まり、数多くの変数によって複雑な決定:オペレーティングシステム、デバイスの快適さ、スクリーンサイズ、ペン感度、価格、その他。
次にプラットフォームが登場します。あなたがタブレットやコンピュータにいても、利用可能なアプリケーションの数は圧倒的です。PhotoshopからProcreate、Clip StudioからCorel Painterまで、選択肢は膨大です - それぞれが選択肢や能力の多様性が膨大であるため、急激な学習曲線を伴います。
ソフトウェアをマスターすることは戦いの半分に過ぎません。伝統的なスキルをデジタル領域に翻訳することも学ばなければなりません。カラー理論、構成、ブラシングは基本的ですが、グラフィットやウォーカラーのタクティル体験は直感的にApple Pencilやペンに移行しません。
そして、新入生にとっては、旅はさらに急激です。デジタル世界は芸術的基礎の必要性を回避しません - それは単に彼らが学習する方法を再構成します。
あなたが経験豊富な画家であろうと、完全な初心者であろうと、デジタルアートへの移行は何でも速いものです。プロフェッショナルにとっては、それは新しいツールやワークフローに長年の筋肉記憶を適応させることを意味します。新人にとっては、基礎的なアートスキルを地上から構築することを意味します。
Then Came AI: A Paradigm Shift in Creative Process
Then Came AI: A Paradigm Shift in Creative Process クリエイティブ・プロセス幸い、もしくは間違いなく、この風景は変わりました。
人工知能の出現に伴い、デジタルアートへの時間がかかる入門はもはや必要ではありません。ダル・Eたった一言で芸術を生み出すことができます。一文を入力し、数秒でデジタルな傑作が実現します。
芸術の世界は、ほぼすべての分野と同様に、AIの能力によって揺れ動いています. 質問に答え、コードを修正するGPTモデルから、DALL·Eを生成するイラストに至るまで、創造的プロセスは変化しました。
しかし、それは実際にどのように機能しますか?そして、それが思えるほど魔法ですか?
Learning Like a Human: The Foundation of AI Art
「Learning Like a Human: The Foundation of AI Art」AIがどのように画像を生成するかを理解するためには、まずAIがどのように学ぶかを理解しなければなりません。
幼い子(オリバーを呼んでみよう)が動物を識別することを学び、母親が黒猫を指し、「あれは猫だ」と言い、その後、彼女はジンジング猫を指し、その言葉を繰り返します。
新しい色にもかかわらず、オリバーは共通の特徴を認識します:四本の足、、指の耳、尻尾、および。
ある日、オリヴァーは一匹のシヒツゥー犬に会い、それを猫と呼び、それが彼の持っている情報に基づいて彼の最高の推測です。
これが人工ニューラルネットワークが学ぶ方法の本質です。
Neural Networks: Digital Brains Built on Data
ニューラルネットワーク:データに基づくデジタル脳ニューラルネットワークは、人間の脳がどのように機能するかによってインスピレーションを得たコンピュータモデルの一種で、赤ちゃんオリバーのように、大量のデータを分析することによってパターンを認識し、経験から学ぶように構築されています。
ヒトの脳のニューロン. Illustration created by the author using DALL-E 3.
これらのネットワークは、相互に接続されている小さな処理ユニット(「ノード」または「シナプス」と呼ばれる)の層で構成されています - ニューロンが脳内で接続する方法に似ています。
トレーニング中に、ネットワークは、トレーニングがどれほど良いか、あるいはどれほど悪いかに応じて、これらの重量を時間とともに調整します - オリバーが徐々に自分の間違いを修正することで、猫と犬の違いを説明することを学びます。
トレーニングプロセスは、データセット - モデルを教えるために使用される情報の構造化されたコレクションを必要とします。 言語モデルの場合、これは通常、単語から構築された数百万の句を意味しますが、それぞれはアルファベットの文字から構築されています。
データセットが大きくなり、多様化するほど、モデルがより正確になります。
Inside the Neural Network: How Data Flows and Decisions Form
ニューラルネットワークの内部:データの流れと意思決定の形成現代の図でしばしば視覚化されているように、神経ネットワークを想像してみましょう:相互接続されたノードから構成される巨大なグラフ これらのノードは、上から下まで伸びており、それぞれのノード、または人工のニューロンは、情報処理において役割を果たします。
この構造は、全体として知られている。topologyトポロジーは、ネットワークにどれだけの層が含まれているか、各層にどれだけのノードが存在するか、およびそれらの間でデータがどのように流れるかを定義します。
トレーニングは、画像や文などの入力データをネットワークの最初の層に送り込むことから始まります。このデータは次にネットワークを通じて、層ごとに前進します。各段階で、ノードは、マトリックスの倍数、ReLU (Rectified Linear Unit) などの活性化関数、またはその他の変換などのデータに数学的な操作を適用します。
このプロセスが進むにつれて、Acomputation graphこのグラフは、それぞれの操作とデータの流れを細かく記録する:どのノードがどのような変換を実行したか。
この計算グラフは、予測だけでなく、ミスから学ぶために必要不可欠です。モデルが間違った結果(予測)を生成すると、グラフは、システムが各ステップを追跡し、すべての重量を調整することができます。backpropagation -ニューラルネットワークが時間とともに改善するコアメカニズム。
Backpropagation: Learning by Error
Backpropagation: Learning by Error(バックプロパガンダ)オリバーに戻ろう。
彼が犬を猫と間違えると、彼の母親は彼を訂正し、オリバーは彼の理解を再調整することができる。
ネットワークが予測を行った後、結果は実値と比較されます。loss function損失関数は、予測が実際の結果からどれほど真実から遠かったかを測定します。
バックプロパガンダのプロセスでは、グラフのレイヤーは、ネットワーク内のそれぞれの重量がエラーにどれだけ貢献したかを計算するために、後ろ向きに横断されます。チェーンルール計算から、gradientsそれぞれのグレディントは、それぞれの重量に関して損失を記述します。これらの計算されたグレディントは、間違いを減らすために必要な方向と大きさの変更を示すことで、誤りを修正する方法を示すことを可能にします。
このフィードバックループ - forward pass, error calculation, backward pass - は繰り返されます. 結果? パターンを識別し、ますます正確な予測ができる訓練されたモデル。
Teaching Oliver to Draw: The Power of Generative Models
オリバーを描くことを教える:生成モデルの力予測モデルを使用して予測がどのように行われているかを調べた今、私たちは、生成モデルのより複雑な機能を理解し始めることができます。彼らの名前が示唆するように、予測モデルは既存のデータを分析し、可能性のある結果について明確な推定を行うように設計されています - 若いオリバーのように、動物を研究した後、彼が遭遇する新しいタイプを自信を持って予測することができます。
しかし、オリバーに猫を識別するのではなく、それを描くように頼むことを想像してください。
我々は彼が彼の前に猫を持っていないと仮定し、彼は彼が見た猫のすべての正確な詳細を思い出せない。しかし、彼は今、記憶、想像力、学習パターンに基づいて完全に新しい猫のイメージを構築するように求められている。
DALL·Eのような生成モデルは、パターン認識を超え、トレーニング中に遭遇したものに似たオリジナルコンテンツを作成するように訓練されています。「これは何ですか?」彼らは質問に答え、「これが存在していたらどう見えるだろうか?」これらのモデルは、データを理解するだけでなく、それを使って創造し、彼らが学んだ構造やスタイルと一致する完全に新しい画像、テキスト、オーディオ、またはビデオを生成します。
When Language Takes Shape
言語が形をとるときDALL·Eのような生成型モデルは、画像とテキストの両方の膨大なデータセットに訓練され、ビジュアル要素と言語を関連付けることを学びます。
それは意味の内部マップを構築し、「赤いりんご」が丸さ、特定の色合い、支柱を意味することを理解し、その後、新しいテキストプロンプトが与えられると、モデルは単語を構造化された表現に変換し、それが画像を生成するためのガイドとして使用します - ランダムな騒音から始まり、テキストに合致する一貫したビジュアルが現れるまで段階的に精製します。
このプロセスにより、モデルはトレーニング中に学んだパターンに忠実でありながら、これまで見たことのない完全に新しいイメージを作成することができます。
A Thousand Apples a Second: What AI Sees That Artists Can’t
「A Thousand Apples a Second: What AI Sees That Artists Can't」これが芸術にどのように適用されるのか。
たとえば、DALL·Eを使用してリンゴのデジタル絵を作成したいとします。あなたは単にリクエストを入力します - そして数秒で、あなたは画像を受け取ります。
「りんごのデジタル絵を生成する」というプロンプトに対して、DALL-E 3は以下の画像で答えた。
そのリンゴは、モデルがトレーニング中に見た数百万の画像の産物です。
対照的に、人間のアーティストは、インスピレーションを探すことから始めます - Pinterest のような専門プラットフォームを閲覧して参照を研究し、粗い形状をスケッチし、細部を精製し、色で実験し、テクスチャを適用します。
このプロセスは、ブラウジング、参照を収集し、りんごのようなオブジェクトを注意深く観察することは、あらゆるアーティストのワークフローの不可欠な部分です それは、彼らが心の中でビジュアルライブラリを構築する方法です:形状、テクスチャ、照明、色の変異、スタイリッシュな選択を調べます 多くの方法で、これはAIモデルがどのように訓練されているかを反映します。dataset, serve the same purpose: to teach the model what an apple looks like from various angles, in different styles, and under varying lighting conditions.
しかし、いくつかの重要な違いがあります:scale and speed.
人間のアーティストは、時間とともに自分の記憶、経験、インスピレーションを処理する能力にのみ依存している一方で、AIモデルは膨大な計算資源を使用して訓練されています。ガウディ3) これらの機械は並行して動作し、信じられないほどの速度で大量の画像を処理し分析します。機械間のネットワーク接続、高流量ストレージシステム、および専門のAIハードウェアにより、これらのモデルは数日または数週間で巨大なデータセットをトレーニングすることができます - それは、人間が吸収するのに何年もかかることがあります。
対照的に、アーティストの脳は唯一の「ハードウェア」です。高速のクラスターや画像データのペタバイトはありません - 直感、メモリ、実践だけです。AIが回避するこの人間の限界は、一生のうちに1人の人よりも多くの例、より多くの変異、より多くのスタイルを「見る」ことを可能にします。
Matching Human Style: Mimicking Mediums
Matching Human Style: Mimicking Mediums今日のデジタルアーティストは1つのビジュアルスタイルに限定されていません。Procreateのようなツールを使用すると、油、水色、鉛筆、インクをシミュレートすることができます - 紙のテクスチャとペーストダイナミクスで完了します。
粗い紙に水色の薄い柔らかさを模したいですか? そのためのペーストがあります。 布の上の油の密度の豊かさを好みますか? それも。
AI はこれらのスタイルを模することもできます - 正しく提示された場合。
これらのプロンプトのそれぞれは、モデルに主体だけでなく、メディア、色のトーン、芸術的なテクスチャを模するように指示します。
The Artistic Process
アーティストプロセスAIなしで同じ効果を作成するには、アーティストは参照材料を収集し、層ごとにスケッチを構築し、ブラシ設定で実験し、ベースカラーを適用し、ハイライトと影を追加し、テクスチャを手動で調整しなければなりません。
It’s a time-intensive but emotionally rich experience.
AI では、プロセスはより即時的になります - しかし、さらに分離されます。
私が立ち上げた創造的な旅の段階を、一つの段階で追跡しましょう。
The Ghost in the Gallery: Why AI Still Can’t Replace You
ギャラリーのゴースト:なぜAIはまだあなたを置き換えることができないのかAIは芸術的プロセスを複製する能力を超えているように見えます - もっと速く、より規模でしかありません。これは重要な質問を提起します:なぜ誰もが従来のデジタルメディアを選ぶのでしょうか? 真の芸術的表現と創造性のための余地はまだありますか? それとも、その追求は時代遅れとなっていますか? そして、人間の芸術家がまだ場所を持っているなら、AIを超えることができます - そして、どのような文脈でそれが可能でしょうか?
より正確で要求の高い指示を含むプロンプトを生成しようとするとどうなるかを探ってみましょう。
「水色のスタイルで2つの葉を持つりんごを生成する」というメモに答えると、このモデルは次の結果を生成します。
そこでカーテンのリフトが起こり、裂け目が明らかになる:より精密で具体的なプロンプトが提示されたとき、「水色のスタイルで同じ方向に向かう2つの葉を持つりんごを生成する」 - 結果は興味深く、予想外の回転をとります。
同じように見えますか? 賛成です。
しかし、それはその要件を満たしているのだろうか? それは明確で明確なものなのでしょうか? 絶対にそうではありません。
それは単に理解できないだろうか? 私のせいだった - 私のスピーチはあまりにも曖昧でしたか?
何らかの曖昧さを取り除くために、私は要求をさらに精密にしました:
"Generate an apple with two leaves where both leaves face to the left side in watercolour style" (水色のスタイルで左側に顔を向ける2つの葉を持つリンゴを生成する)
上記のとおり、結果は、意図した結果からさらに異なりました。
AIモデルとの間違ったコミュニケーションのこの例は、事実上、それをより正確に指導しようとするほど、望ましい結果がより難解になるように感じます - しばしば挫折と時間を無駄にします。
驚くべきことは、子供が理解できるほど単純な要求がモデルにとって理解できないことだ。
クライアントが人間のアーティストに単純な指示を提供することを想像してください - 単に文句が外国語で話されたかのように、真っ白な誤解に遭遇するだけです。
Final Thoughts: The Art We Make Together
Final Thoughts: The Art We Make Together シングル結局のところ、これはブラシとコードの戦争ではなく、対話です。マシンはスピード、精度、無限の変異を提供し、アーティストは感情、直感、魂をもたらします。
私たちは、想像力がもはや私たちの手だけの限界に縛られている時代に生きることを幸運に思っています。創造の未来は競争ではなく、調和にあり、人間の精神と人工知能が並んで創造し、それぞれ独自の種類の魔法を借りている。
わたしについて
わたしについて私はMaria Piterberg - ハバナラボス(Intel)のRuntimeソフトウェアチームを率いるAI専門家であり、伝統的およびデジタルメディアで働く半プロのアーティストです。私はコミュニケーションライブラリ(HCCL)とランタイム最適化を含む大規模なAIトレーニングシステムに特化しています。