TL;DR: A generatív AI modellek, mint például a DALL·E, átalakítják a digitális művészetet - lehetővé teszik az azonnali képgyártást a szövegből.
Csak néhány évvel ezelőtt a digitális művészet létrehozása komplex eszközök, drága felszerelések és hetek – ha nem hónapok – gyakorlásának elsajátítását igényelte.Ma, egy egyszerű mondattal és néhány másodperccel, a mesterséges intelligencia egy olyan festményt készíthet, amely egyszer egy művész napokat vett igénybe.
From Brushstrokes to Pixels: The Traditional Digital Artist’s Journey
A keféktől a pixelekig: a hagyományos digitális művész utazásaDigitális művésznek lenni nagyon sokat igényel - sokkal több, mint a szemnek.
Mint művész, a digitális létrehozásra való áttérés nem zökkenőmentes és nem is olcsó.A megfelelő hardver kiválasztásával kezdődik, egy döntés, amelyet számtalan változó bonyolít meg: operációs rendszerek, eszközök kényelme, képernyőméret, tollérzékenység, ár és így tovább.
Ezután jön a platform. Akár táblagépen, akár számítógépen, a rendelkezésre álló alkalmazások száma elnyomó lehet. A Photoshoptól a Procreate-ig, a Clip Studio-tól a Corel Painterig a választék hatalmas - és mindegyik meredek tanulási görbével jár, mivel a lehetőségek és képességek sokfélesége mindegyikben hatalmas.
A szoftver elsajátítása csak a csata fele. Meg kell tanulnunk a hagyományos készségeket a digitális világba is lefordítani. A színelmélet, a kompozíció és a keverés alapvető fontosságú marad, de a grafit vagy az aquarell érintő tapasztalata nem intuitív módon kerül át egy Apple Pencil vagy tollra. Még a tapasztalt művészek is szembesülnek a tanulás és az újratanulás időszakával.
És az újonnan érkezők számára az utazás még meredekebb.A digitális világ nem kerüli meg a művészi alapok szükségességét - egyszerűen átalakítja a tanulás módját. A forma, a fény, a mélység és a stílus megértése ugyanolyan fontos marad, így a tanulási folyamat hosszabb és rétegesebb azok számára, akik a semmiből indulnak.
Akár tapasztalt festő, akár teljesen kezdő, a digitális művészetbe való átmenet nem gyors. A szakemberek számára azt jelenti, hogy évekig alkalmazkodik az izmok memóriájához az új eszközökhöz és munkafolyamatokhoz. Az újonnan érkezők számára az alapvető művészeti készségek felépítését foglalja magában. Mindkét esetben az út hosszú - tele van próbákkal és hibákkal, végtelen gyakorlati órákkal és türelemmel és elkötelezettséggel. Az utazás hónapokig tarthat - csak azért, hogy valami olyan megtévesztően egyszerű legyen, mint egy alma, egy macska vagy egy szék.
Then Came AI: A Paradigm Shift in Creative Process
Akkor jött az AI: paradigmaváltás a kreatív folyamatbanSzerencsére - vagy talán elkerülhetetlenül - ez a táj megváltozott.
A mesterséges intelligencia növekedésével a digitális művészetbe való időigényes beavatkozás már nem szükséges.Az EÍrjon be egy mondatot, és egy digitális remekmű másodpercek alatt megtörténik.
A művészeti világot, mint szinte minden más területet, megrázta az AI képességei.A GPT modellektől a kérdések megválaszolásáig és a kód rögzítéséig, a DALL·E illusztrációk létrehozásáig a kreatív folyamat átalakult.
De hogyan működik valójában? és olyan varázslatos, mint amilyennek látszik?
Learning Like a Human: The Foundation of AI Art
Tanulás, mint egy ember: az AI művészet alapjaAhhoz, hogy megértsük, hogyan képes az AI képeket generálni, először meg kell értenünk, hogyan tanul.
Képzeljünk el egy kisgyermeket – nevezzük Olivernek –, aki megtanulja azonosítani az állatokat.Az anyja egy fekete macskára mutat, és azt mondja: „Ez egy macska.”Később egy gyömbér macskára mutat, és megismétli a szót.
Annak ellenére, hogy az új szín, Oliver felismeri a közös jellemzők: négy láb, fülbevaló, pontos fül, farka, és egy szar.
De hibák történnek.Egy nap Oliver egy Shih-Tzu kutyát lát, és macskának nevezi. Ez a legjobb találgatása, a rendelkezésére álló információk alapján. Anyja kijavítja: „Nem, ez egy kutya.”
Ez a lényege annak, hogy a mesterséges neurális hálózatok hogyan tanulnak.
Neural Networks: Digital Brains Built on Data
Neurális hálózatok: az adatokra épülő digitális agyA neurális hálózat egy olyan típusú számítógépes modell, amelyet az emberi agy működésének módja ihletett, és arra épült, hogy felismerje a mintákat és tanuljon a tapasztalatokból nagy mennyiségű adat elemzésével, akárcsak Baby Oliver.
A neuronok az emberi agyban. Illusztráció a szerző által létrehozott DALL-E 3.
Ezek a hálózatok apró feldolgozóegységek rétegeiből állnak (a „csomópontok” vagy „szinapszisok” néven), amelyek egymáshoz kapcsolódnak - hasonlóan ahhoz, ahogyan a neuronok összekapcsolódnak az agyban.
A képzés során a hálózat idővel kiigazítja ezeket a súlyokat attól függően, hogy mennyire jól vagy rosszul teljesít - éppúgy, mint ahogy Oliver fokozatosan megtanulja megmondani a különbséget a macska és a kutya között a hibáinak kijavításával.
A képzési folyamat egy adatkészletet igényel - a modell tanítására használt információk strukturált gyűjteményét. A nyelvi modell esetében ez általában több millió mondatot jelent, amelyek mindegyike szavakból épül, amelyek viszont az ábécé betűiből épülnek.
Minél nagyobb és változatosabb az adatkészlet, annál pontosabb lesz a modell.
Inside the Neural Network: How Data Flows and Decisions Form
A neurális hálózaton belül: Hogyan alakulnak az adatáramlások és a döntésekKépzeljünk el egy ideghálózatot, ahogy azt a modern diagramokban gyakran vizualizálják: egy hatalmas grafikon, amely összekapcsolt csomópontokból áll. Ezek a csomópontok külön rétegekké vannak szervezve - felülről lefelé terjednek, mint egy rétegelt áramkör rétegei.
Ez az általános struktúra az úgynevezetttopologyA topológia meghatározza, hogy hány réteg van a hálózatban, hány csomópont létezik minden rétegben, és hogyan áramlik az adatok közöttük.
A képzés azzal kezdődik, hogy a bemeneti adatokat – például képeket vagy mondatokat – a hálózat első rétegébe táplálja. Ez az adat a hálózaton keresztül, rétegről rétegre halad előre. Mindegyik szakaszban a csomópontok matematikai műveleteket alkalmaznak az adatokra, mint például a mátrixszorzatok, aktiválási funkciók, mint a ReLU (Rectified Linear Unit), vagy más átalakítások.
Ahogy ez a folyamat folytatódik, acomputation graphEz a grafikon gondosan rögzíti az egyes műveleteket és az adatáramlást: melyik csomópont végezte el a transzformációt.
Ez a számítási grafikon elengedhetetlen - nemcsak előrejelzések készítéséhez, hanem a hibákból való tanuláshoz is. Amikor a modell helytelen eredményt (előrejelzést) hoz létre, a grafikon lehetővé teszi a rendszer számára, hogy minden egyes lépést nyomon kövesse és beállítsa az összes súlyt.backpropagation -Az alapvető mechanizmus, amelyen keresztül a neurális hálózatok idővel javulnak.
Backpropagation: Learning by Error
Címke: Hiba útján tanulniDe térjünk vissza Oliverhez.
Amikor egy kutyát macskaként tévesen címkéz, az anyja kijavítja, és Oliver képes átalakítani a megértését.
Miután egy hálózat előrejelzést készített, az eredményt összehasonlítjuk a valós értékkel egyloss functionA veszteség funkció azt méri, hogy az előrejelzés milyen messze volt az igazságtól a tényleges eredménytől.
A visszafelé terjesztés folyamatában a grafikon rétegeit hátrafelé keresztezik annak kiszámítása érdekében, hogy a hálózat minden egyes súlya mennyit járult hozzá a hiba kialakulásához.A lánc szabályaia számításokból,gradientsMinden gradiens leírja a veszteséget minden egyes súly tekintetében. Ezek a számított gradiensek lehetővé teszik számunkra, hogy jelezzük a hiba kijavításának módját azáltal, hogy megmondjuk a hiba csökkentéséhez szükséges változás irányát és nagyságát. Ezekkel a gradiensekkel a súlyokat ennek megfelelően frissítjük, hogy pontosabbak legyenek.
Ez a visszajelzési lánc – előrehaladás, hiba kiszámítás, visszafelé haladás – újra és újra megismétlődik.
Teaching Oliver to Draw: The Power of Generative Models
Oliver megtanítása rajzolni: a generatív modellek erejeAhogy a nevük is sugallja, a prediktív modelleket úgy tervezték, hogy elemezzék a meglévő adatokat, és tájékozott becsléseket készítsenek a valószínű kimenetelről - hasonlóan a fiatal Oliverhez, aki az állatok tanulmányozása után magabiztosan megjósolhatja, hogy milyen típusú új találkozik.
De képzeld el, hogy megkérdezed Oliver-t, hogy ne azonosítson egy macskát, hanem rajzoljon egyet.
Feltételezzük, hogy nincs előttük macska, és nem emlékszik vissza a macskák minden pontos részletére, amelyeket látott. mindazonáltal most arra kérik, hogy készítsen egy teljesen új képet egy macskáról a memória, a képzelet és a megtanult minták alapján.
A generatív modellek, mint például a DALL·E, túlmutatnak a minták felismerésén. Képzettek arra, hogy olyan eredeti tartalmat hozzanak létre, amely hasonlít arra, amit a képzés során találtak.„Mi ez az?”válaszol a kérdésre,„Milyen lenne ez, ha létezne?”Ezek a modellek nemcsak az adatokat értik meg, hanem ezzel is létrehozzák, teljesen új képeket, szöveget, hangot vagy videót generálva, amelyek összhangban vannak a megtanult struktúrákkal és stílusokkal.
When Language Takes Shape
Amikor a nyelv formát öltA generatív modelleket, mint például a DALL·E-t képezik a kép-szöveg párok hatalmas adatkészletein, megtanulják társítani a vizuális elemeket a nyelvre.A képzés során a modell egy képet lát a felirat mellett, és fokozatosan megtanulja, hogy mely szavak felelnek meg melyik formáknak, textúráknak, színeknek és fogalmaknak.
Később, amikor egy új szöveges utasítást adnak, a modell átalakítja a szavakat strukturált reprezentációvá, és ezt útmutatásként használja egy kép létrehozására - kezdve a véletlenszerű zajtól és fokozatosan finomítva, amíg a szöveghez illeszkedő koherens vizuális megjelenés nem következik be.
Ez a folyamat lehetővé teszi a modell számára, hogy teljesen új képeket hozzon létre, amelyeket még soha nem látott, miközben továbbra is hű marad a képzés során megtanult mintákhoz.
A Thousand Apples a Second: What AI Sees That Artists Can’t
1000 alma másodpercenként: mit lát az AI, amit a művészek nem tudnakHogyan alkalmazható ez a művészetre?
Tegyük fel, hogy egy alma digitális festményét szeretné létrehozni a DALL·E. Egyszerűen beírja a kérését - és másodpercek alatt képet kap.
Az „egy alma digitális festményének létrehozása” kérésére a DALL-E 3 a következő képpel válaszolt:
Ez az alma a képek millióinak terméke, amelyeket a modell a képzés során látott.
Ezzel szemben egy emberi művész az inspiráció keresésével kezdődik - a hivatkozások tanulmányozása olyan speciális platformok böngészésével, mint a Pinterest, a durva formák vázlása, a részletek finomítása, a színekkel való kísérletezés és a textúra alkalmazása.
Ez a folyamat a böngészés, a hivatkozások összegyűjtése és az objektumok – például az almák – szoros megfigyelése minden művész munkafolyamatának alapvető része. Így építenek ki egy vizuális könyvtárat az elméjükben: megvizsgálják a formát, a textúrát, a megvilágítást, a színváltozásokat és a stílusválasztást. Sokféleképpen ez tükrözi, hogy egy AI modellt hogyan képeznek. Mielőtt képeket generálhat, a modellt több ezer - gyakran millió - példának is ki kell téve.datasetUgyanazt a célt szolgálja: megtanítani a modellt, hogyan néz ki egy alma különböző szögekből, különböző stílusokban és különböző megvilágítási körülmények között.
De vannak olyan alapvető különbségek, mint:scale and speed.
Míg az emberi művész kizárólag a saját memóriájára, tapasztalataira és képességére támaszkodik, hogy idővel inspirációt dolgozzon fel, az AI modelleket hatalmas számítási erőforrások felhasználásával képezik.A DALL·E-hez hasonló nagyméretű modelleket olyan erőteljes adatközpontokban képezik, amelyek több ezer összekapcsolt GPU-val, TPU-val vannak felszerelve, vagy cégem esetében - képzésre szakosodott gyorsítók (példáulGaudí 3Ezek a gépek párhuzamosan dolgoznak, feldolgozzák és elemzik a képek hatalmas mennyiségét hihetetlen sebességgel.A gépek közötti hálózati kapcsolatok, a nagy áramlási kapacitású tárolórendszerek és a speciális AI hardver lehetővé teszik, hogy ezeket a modelleket napok vagy hetek alatt hatalmas adatkészleteken képezzék - ami éveket vehet igénybe, ha valaha is.
Ezzel szemben a művész agya az egyetlen "hardver", amely rendelkezésre áll. Nincs nagy sebességű tömb vagy petabájt képadatok - csak az intuíció, a memória és a gyakorlat. Ez az emberi korlátozás, amelyet az AI megkerül, lehetővé téve, hogy "látjon" több példát, több változatot és több stílust, mint egy személy valaha is egy életben.
Matching Human Style: Mimicking Mediums
Az emberi stílus összhangja: a médiumok utánozásaA digitális művészek ma nem korlátozódnak egyetlen vizuális stílusra. olyan eszközökkel, mint a Procreate, szimulálhatják az olajat, az akvarelt, a ceruzát és a tintát - kiegészítve a papír textúrával és a kefe dinamikájával.
Szeretné utánozni az akvárium csúnya lágyságát a durva papíron? Van erre egy kefe. Szeretné a sűrű olaj gazdagságát a vászonra?
Az AI ezeket a stílusokat is utánozhatja - ha helyesen kéri.
Ezek mindegyike arra utasítja a modellt, hogy ne csak a témát utánozza, hanem a médiumot, a színt és a művészi textúrát is.
The Artistic Process
A művészi folyamatAhhoz, hogy ugyanazokat a hatásokat AI nélkül hozza létre, a művésznek össze kell gyűjtenie a referenciaanyagot, rétegről rétegre kell készítenie a vázlatokat, kísérleteznie kell a kefe beállításokkal, alapszíneket kell alkalmaznia, kiemeléseket és árnyalatokat kell hozzáadnia, és kézzel kell beállítania a textúrákat.
Ez egy időigényes, de érzelmileg gazdag élmény.
Az AI-val a folyamat azonnaliabbá válik - de még elszigeteltebbé is válik.
Térjünk vissza az általam megkezdett kreatív utazás lépéseire, egy-egy szakaszra.
The Ghost in the Gallery: Why AI Still Can’t Replace You
A galéria szelleme: Miért nem tudja még mindig helyettesíteni ÖntEz kritikus kérdést vet fel: miért válassza valaki a hagyományos digitális médiát? van még hely az autentikus művészi kifejezésre és kreativitásra, vagy ez a törekvés elavult?
Vizsgáljuk meg, mi történik, ha megpróbálunk pontosabb és igényesebb utasításokat generálni:
Válaszul a „Generáljon egy almát két levelével vízszínező stílusban”, a modell a következő eredményt adja:
Ez az, ahol a függöny emelkedik - és a repedések feltárulnak: amikor egy finomabb és specifikus prompt - „Generáljon egy almát két levelével, amelyek ugyanabba az irányba néznek a vízi stílusban” - az eredmény érdekes és kiszámíthatatlan fordulatot vesz.
Hasonlóképpen néz ki ez Önnél is? – kérdezem.
De teljesíti-e a követelményt - egyértelműen és egyértelműen?
A hiba az enyém volt - túl homályos volt a kérésem?
A kétértelműség kiküszöbölése érdekében tovább finomítottam a kérést:
„Létrehoz egy almát két levelével, ahol mindkét levél balra néz vízszínező stílusban”
Mint már említettük, az eredmény még jobban eltér a tervezett eredménytől.
Valójában úgy tűnik, hogy minél pontosabban próbáljuk irányítani, annál elhanyagolhatóbbá válik a kívánt eredmény - gyakran frusztrációhoz és időpocsékoláshoz vezet.
Ami megdöbbentő, az az, hogy egy olyan egyszerű kérés, amelyet egy gyermek megérthetett, érthetetlen volt a modell számára.
Imagine a client offering a straightforward instruction to a human artist - only to be met with blank incomprehension, as if the sentence were spoken in a foreign tongue. In such a case, the client would undoubtedly take their business elsewhere. And in our scenario, it is the model that loses the commission.
Final Thoughts: The Art We Make Together
Végső gondolatok: A művészet, amit együtt alkotunkA gép kínál sebességet, pontosságot és végtelen változatosságot; a művész hozza az érzelmeket, az intuíciót és a lelket.
A teremtés jövője nem a rivalizálásban, hanem a harmóniában rejlik - ahol az emberi szellem és a mesterséges intelligencia egymás mellett teremtenek, mindegyik saját mágiát kölcsönöz.
Rólam
RólamÉn vagyok Maria Piterberg - egy AI szakértő, aki a Habana Labs (Intel) Runtime szoftvercsapatát vezeti, és egy félig professzionális művész, aki hagyományos és digitális médiumokon dolgozik.