How a rocket scientist turned entrepreneur created the “ChatGPT for Earth data” using transformers and satellite imagery
Bruno Sánchez yra raketų mokslininkas su šiek tiek nukrypstančia trajektorija. Astrofizikas pagal mokymą, jis naudojo savo profesijos įrankius – matematiką ir mokslą – kuo platesniu mastu: visata.
Sanchezas dirbo Pasaulio banke, kur kaip tarpdisciplininės komandos narys jis padėjo suprasti geospatialius duomenis.Tada jis suprato, kad pagrindinis jo darbas buvo žemėlapiai, o tai paskatino jį pradėti bendrovę, vadinamą Mapbox, teikiančią internetinius žemėlapius internete.
Ši patirtis atnešė dar vieną Sánchez supratimą - kadMes turime daug informacijos apie Žemę.„Mes žinome, kokie medžiai yra pasaulyje, mes žinome, kokie miškai yra pasaulyje.
Taigi, kai jam buvo suteikta galimybė pabandyti viską sujungti į tą patį duomenų centrą ir į vieną darbo stalą, jis nusprendė tai padaryti.
Sanchezas pažymėjo, kad „T“ ChatGPT –transformatorių– buvo architektūra, kuri atrodė puikiai tinka tokioms formoms kaip tekstas, vaizdai ir garsas, bet niekas, atrodo, nenaudojo jos žemės duomenims.Taigi jis nusprendė pabandyti.Jis sukūrė komandą, surinko lėšų, sukūrė ne pelno organizaciją ir sukūrė atviro kodo modelį, naudojant atvirus duomenis.ClayJis gimė
Clay: the ChatGPT of Earth data?
Molis: Žemės duomenų ChatGPT?"Tai neįtikėtina. tai yra greičiau, pigiau ir geriau nei bet kas kitas, kurį mes kada nors matėme, o tai yra tiksliai tas pats, kas atsitiko su tekstu, vaizdais ir garsu.Tai dar kartą įrodo, kad šis "T" iš "ChatGPT", transformatorius, yra nuostabus žmogaus išradimas", - pažymėjo Sánchezas, tikrai entuziastingas dėl Clay.
"Tai neįtikėtina. tai yra greičiau, pigiau ir geriau nei bet kas kitas, kurį mes kada nors matėme, o tai yra tiksliai tas pats, kas atsitiko su tekstu, vaizdais ir garsu.Tai dar kartą įrodo, kad šis "T" iš "ChatGPT", transformatorius, yra nuostabus žmogaus išradimas", - pažymėjo Sánchezas, tikrai entuziastingas dėl Clay.
Taigi, kas tiksliai yra molis – ką jis daro ir kaip jis veikia? Sánchez pozicionuoja molį abstrakčiu požiūriu kaip architektūrą. Tai procesorius, kuris paima bet kokio tipo Žemės vaizdą (palydovą, lėktuvą ar droną) ir „supranta“, kas yra paveikslėlyje.
Nepaisant to, kad Clay buvoĮkvėpė ChatGPTir naudoja transformatorių architektūrą, vadindamas jį Žemės duomenų ChatGPT nebūtų tikslus dėl kelių priežasčių.
Svarbiausias skirtumas yra duomenų tipas, kuriuo buvo apmokytas Clay – vaizdai, o ne tekstas.
Molis buvo apmokyti ne tik bet kokio tipo vaizdą, bet labai specifinio tipo vaizdus: aukštos raiškos oro nuotraukos žemės, kurios yra dalisViešojo domeno duomenų rinkiniaiSánchez pažymėjo, kad tai yra dalis priežasties, kodėl haliucinacijos, viena iš ryškiausių problemų su transformatoriais pagrįstais modeliais, yra daug mažiau problema su Clay.
Clay, kaip ir ChatGPT ir jos ilk, remiasiĮdėklai– aukštos dimensijos skaitmeninės duomenų, su kuriais jis susiduria, atstovybės.Bet be duomenų, su kuriais dirba Clay, jo sukurti įterpimai ir jų naudojimo būdas yra skirtingi.
Skirtingai nuo savo kolegų, šiuo metu sąveikaujant su Clay nereikalauja teksto sąsajos. Jis net neperima Clay. Vietoj to, Clay komanda skatina žmones naudoti modelį, kad būtų sukurti įterpimai, o tada tiesiogiai dirbti su jais.
The power of embeddings
Įterpimų galiaKaip paaiškino Sanchezas, „Clay“ sveriaAutomobilių kaukėsTai reiškia, kad vaizdai ne tik suspaudžiami per jų įterpimo atstovavimus, bet ir pašalinamos vaizdo dalys.
Pavyzdžiui, jei paveikslėlyje yra veido dalių, tai tikriausiai reiškia, kad yra ir kitų dalių.
Užmaskuoti AutoEncoders naudoja koderius ir dekoderius, ir leidžia Clayskalė be žmogaus duomenų ženklinimoIš pradžių idėja buvo mokyti Clay pagrindinį modelį, o tada subtiliai sureguliuoti dekoderius tik konkrečioms užduotims, pvz., Automobilių skaičiavimui.
Bet tada Clay komanda suprato, kad jie gali sukurti įterpimus, kurie yra visuotinai taikomi. Taigi jie generuoja įterpimus, o tada jie naudoja įterpimus, kad sukurtų dekoderius, praleidžiant koderius. Pagrindinė motyvacija yra ta, kad tai leidžia gauti atsakymus per milisekundes, o ne per savaites.Vektorinės duomenų bazėsTai turėtų veikti, kaip Sanchezas:
„Įsivaizduokite, kad turime vartotoją, kuris nori rasti saulės baterijų plokštes Graikijoje, ir mes sukūrėme įdėklus visai Graikijai.Tada tai yra tiesiog milisekundės žinoti; mes neturime tobulo atsakymo, bet turėsime gerą atsakymą apie tai, kur yra saulės baterijos.
„Įsivaizduokite, kad turime vartotoją, kuris nori rasti saulės baterijų plokštes Graikijoje, ir mes sukūrėme įdėklus visai Graikijai.Tada tai yra tiesiog milisekundės žinoti; mes neturime tobulo atsakymo, bet turėsime gerą atsakymą apie tai, kur yra saulės baterijos.
Tada, jei kas nors kitas ateina ir nori rasti kažką kito, pavyzdžiui, valčių ar statybos, tie patys įterpimai naudojami šiai naujai operacijai.Tai reiškia, kad juos reikia sukurti tik vieną kartą.Tai įterpimų galia.Tai yra universalus išankstinis skaičiavimas, dauguma atsakymų“.
Tada, jei kas nors kitas ateina ir nori rasti kažką kito, pavyzdžiui, valčių ar statybos, tie patys įterpimai naudojami šiai naujai operacijai.Tai reiškia, kad juos reikia sukurti tik vieną kartą.Tai įterpimų galia.Tai yra universalus išankstinis skaičiavimas, dauguma atsakymų“.
Clay meets Plato
Gargždai susitinka su PlatonuĮterpimo universalumas yra tema, kuri sukėlė didelį susidomėjimą AI bendruomenėje.publikavimas nekontroliuojamo požiūrio, kuris verčia bet kokį įterpimą į ir iš visuotinio latentinio pateikimo, t. y. visuotinė semantinė struktūra, numatyta Platono atstovavimo hipotezės.
TųPlatoninė atstovavimo hipotezėMokslininkų grupė iš Kornelio universiteto pasiūlė stipresnę, konstruktyvesnę šios hipotezės versiją tekstiniams modeliams.
Kalbant apie tikslumą, Sánchez pasidalino kai kuriais empiriniais išvadomis, pažymėdamas, kad komanda pasirinko sutelkti dėmesį į kitas sritis, o ne lyginamuosius rodiklius.Glyno įterpimai, jis pažymėjo, geriausiai veikia, kai objektas, kurį reikia identifikuoti, yra dominuojantis objektas paveikslėlyje.Tikslumas taip pat priklauso nuo objekto dydžio, todėl generuojami skirtingo dydžio įterpimai.
Be to, įterpimai turi būti periodiškai regeneruojami, kad atspindėtų Žemės paviršiuje vykstančius pokyčius – tokius dalykus kaip stichinės nelaimės ar statybos darbai.Ergonomiškumas.
Ergodinės sistemos yra sistemos, kuriose bet kuriuo metu yra visos galimos valstybės. Pavyzdžiui, jei dėl klimato kaitos Ispanijoje kai kurios Madrido dalys virsta dykuma, tai yra kažkas, ko modelis niekada nematė anksčiau.
Prisijunkite prie „Orchestrate all the Things“ naujienlaiškio
Istorijos apie tai, kaip technologijos, duomenys, AI ir žiniasklaida teka vienas į kitą ir formuoja mūsų gyvenimą.
Analizė, esė, interviu ir naujienos. vidutinio ilgio forma, 1-3 kartus per mėnesį.
Užsiregistruokite čia 👉 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/
Prisijunkite prie „Orchestrate all the Things“ naujienlaiškio
Istorijos apie tai, kaip technologijos, duomenys, AI ir žiniasklaida teka vienas į kitą ir formuoja mūsų gyvenimą.
Analizė, esė, interviu ir naujienos. vidutinio ilgio forma, 1-3 kartus per mėnesį.
Pasirašykite čia 🙂https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/
Multi-modality: Clay and text
Multi-modalumas: molis ir tekstasBet ką apie tekstą? Sánchez pripažino, kad gebėjimas sujungti tekstinių modelių galią su Žemės modelių galia atvers kitą galimybių spektrą.
Komanda aktyviai dirba šioje srityje, tačiau Sánchez pažymėjo, kad tekstiniai duomenys kelia iššūkius, kurių Žemės duomenys neturi, daugiausia susiję su tikrumu.OpenStreetMaps žemėlapiai.
Pirma, jie naudoja molį, kad sukurtų Žemės vaizdo įterpimą. Tada jie paima tą patį vaizdą ir naudoja „OpenStreetMaps“ API, kad užklausytų tos pačios teritorijos etikečių. „OpenStreetMaps“ reaguoja su apibūdinimais, tokiais kaip dykuma, upė ar automobilių stovėjimo aikštelė, o teksto modelis naudojamas tam, kad sukurtų įterpimą.
Tada komanda paima 2 įterpimus šioje vietoje - vieną iš Clay ir vieną iš teksto modelio - ir jie bando išsiaiškinti, kaip juos suderinti. Tikslas yra sumažinti nuostolius, kai bando atkurti vieną iš kito arba rasti panašumą.
AI and environmental impact
AI ir poveikis aplinkaiNepaisant entuziazmo dėl transformatorių, Sánchez pripažįsta, kad jie nėra tobuli.Pagrindinė priežastis, kodėl transformatorių architektūra buvo pasirinkta Clay, buvo tai, kad pramonė ir moksliniai tyrimai įdėjo savo svorį, todėl yra daug išteklių ir patirties, kurią galima panaudoti.
„Jeigu aš turėčiau pasirinkti nuo nulio ir turėčiau finansavimą, kad galėčiau paskatinti pasaulinį AI judėjimą, galbūt mes nebūtume pasirinkę transformatorių, bet šis sprendimas nėra mūsų rankose“, – sakė Sanchezas.
Pagrindiniai transformatorių trūkumai, su kuriais susidūrė Clay komanda, susiję su duomenų ir skaičiavimo kiekiu, reikalingu modelių mokymui, ir jų jautrumu.Kompiuteris buvo problemaReikia dar daugiau duomenų ir skaičiavimo, kad būtų pagaminti subtilūs modeliai, o rezultatai yra trapūs ir pernelyg specializuoti.
Clay komanda pradėjo su koncepcijos įrodymu prieš lėšų rinkimą, kad galėtų atlikti išsamų mokymą, reikalingą modelio gamybai. Iki šiol buvo tik 2 "Clay" modelio iteracijos, o Sánchez nori sumažinti mokymo kiekį, reikalingą - taigi ir įterpimo naudojimą.
Dėl savo kadencijos "Microsoft" Planetary Computer, Sánchez gerai žino, kaip labai reikalauja AI, kalbant apie elektros energiją, vandenį ir kitus išteklius. Ironija bando taikyti AI potencialiai sumažinti aplinkos degradaciją nėra prarasta jam.
Idėja, sako jis, yra ta, kad Clay yra atvira ne tik savo gamybai, bet ir komandos darbui bei požiūriui.AI aplinkosauginis pėdsakasŽemė dviem būdais.
Pirma, įgalindami žmones, turinčius panašių tikslų, sujungti jėgas, todėl vietoj to, kad mokytų daugiau modelių, jie susivienytų aplink Clay.
Working with Clay and LGND
Darbas su moliais ir LGNDTai viskas gerai ir gerai, bet kas iš tikrųjų yra geriausias būdas žmonėms naudoti molį?Tai yra atviras klausimas.Be įterpimo ir subtilumo, kuriam reikia patirties ir išteklių, ir teksto, kuris yra eksperimentinis, "Clay" komanda taip pat sukūrė programą, vadinamąClay tyrinėja.
Tai žemėlapis.Jūs spustelite vietas, ir tai leidžia jums rasti daiktus.Bet tada mes klausiame savęs – ar tai žemėlapis, nes jis nusipelno būti žemėlapiu, ar todėl, kad aš esu pripratęs prie žemėlapių, nes esu šioje pramonėje ir noriu žemėlapio?
Tai žemėlapis.Jūs spustelite vietas, ir tai leidžia jums rasti daiktus.Bet tada mes klausiame savęs – ar tai žemėlapis, nes jis nusipelno būti žemėlapiu, ar todėl, kad aš esu pripratęs prie žemėlapių, nes esu šioje pramonėje ir noriu žemėlapio?
Mes galvojame, kad galbūt būdas maksimaliai padidinti "Clay" naudingumą nėra žemėlapis. Galbūt tai taip pat yra pokalbių sąsaja. Galbūt tai tik stulpelis skaičiuoklėje. Mes nežinome", - sakė Sánchezas.
Mes galvojame, kad galbūt būdas maksimaliai padidinti "Clay" naudingumą nėra žemėlapis. Galbūt tai taip pat yra pokalbių sąsaja. Galbūt tai tik stulpelis skaičiuoklėje. Mes nežinome", - sakė Sánchezas.
Sánchez taip pat tiria būdus, kaip teikti paslaugas ir kurti produktus aplink Clay perLGNDTai ankstyvosios dienos, tačiau bendrovė jau turi kai kuriuos mokančius klientus ir dabar uždaro finansavimo raundą.
„Svarbiausia, kad mes turime aiškią idėją, kas yra paslauga, bet tuo pačiu metu mes esame sveiki nežinodami, kas yra produktas.
„Svarbiausia, kad mes turime aiškią idėją, kas yra paslauga, bet tuo pačiu metu mes esame sveiki nežinodami, kas yra produktas.
Mes nesame geospatiali kompanija, mes esame atsakymų kompanija, o didžiausia rizika yra tapti geospatiali kompanija, kurios yra daug“, – pažymėjo Sanchezas.
Mes nesame geospatiali kompanija, mes esame atsakymų kompanija, o didžiausia rizika yra tapti geospatiali kompanija, kurios yra daug“, – pažymėjo Sanchezas.
Going all in
Visi įeina įAtvirumas yra pagrindinė tema Clay ir LGND, nes Sánchez yra atvira tiek partnerystėms, tiek naudoti kitus modelius nei Clay.
„Galbūt vertė yra tai, kad jis yra atviro kodo. Galbūt vertė yra tai, kad jis yra neprisijungęs. Mes lažinamės, kad ten yra kažkas. Galbūt nėra. Galbūt mes klydome ir galbūt įterpimai nėra.
„Galbūt vertė yra tai, kad jis yra atviro kodo. Galbūt vertė yra tai, kad jis yra neprisijungęs. Mes lažinamės, kad ten yra kažkas. Galbūt nėra. Galbūt mes klydome ir galbūt įterpimai nėra.
Bet jei tai yra, arba tiek, kiek tai yra, aš tvirtai tikiu, kad tai atvers tiek daug vertės tiek daug klausimų, socialinių, ekonominių, aplinkosaugos, taip pat investicijų požiūriu.
Bet jei tai yra, arba tiek, kiek tai yra, aš tvirtai tikiu, kad tai atvers tiek daug vertės tiek daug klausimų, socialinių, ekonominių, aplinkosaugos, taip pat investicijų požiūriu.
Ir aš mieliau būčiau neteisus, bet bandęs, nei laukti, kol pamatysiu technologiją, kuri man suteikia šimtu procentų tikrumą, kad ji dirbs", - taip Sánchez apibendrina Clay filosofiją.
Ir aš mieliau būčiau neteisus, bet bandęs, nei laukti, kol pamatysiu technologiją, kuri man suteikia šimtu procentų tikrumą, kad ji dirbs", - taip Sánchez apibendrina Clay filosofiją.
Prisijunkite prie „Orchestrate all the Things“ naujienlaiškio
Istorijos apie tai, kaip technologijos, duomenys, AI ir žiniasklaida teka vienas į kitą ir formuoja mūsų gyvenimą.
Analizė, esė, interviu ir naujienos. vidutinio ilgio forma, 1-3 kartus per mėnesį.
Užsiregistruokite čia 👉 https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/
Prisijunkite prie „Orchestrate all the Things“ naujienlaiškio
Istorijos apie tai, kaip technologijos, duomenys, AI ir žiniasklaida teka vienas į kitą ir formuoja mūsų gyvenimą.
Analizė, esė, interviu ir naujienos. vidutinio ilgio forma, 1-3 kartus per mėnesį.
Pasirašykite čia 🙂https://linkeddataorchestration.com/orchestrate-all-the-things/newsletter/