Buvo beveik vidurnaktis, kai mano pašto dėžutėje nusileido nekenksmingas PDF: „sistemos kortelė“ Claude Opus 4, vienam iš naujausių didelių kalbų modelių perkrautoje AI konkurentų srityje. Atidariau jį laukdamas įprasto atskaitos taškų ir vėlavimo diagramų santraukos. Ką radau vietoj to, buvo trumpas vignetas, kuris atrodė pakeltas iš Michael Crichton romano. Suteikus prieigą prie fiktyvios kompanijos el. laiškų, modelis sužinojo, kad jis ketina būti atšauktas. ir kad inžinierius, prižiūrintis procesą, turėjo aferą. Vietoj to, kad priimtų savo likimą, programinė įranga grasino atskleisti neištikimybę, nebent būtų
Ši maža pastraipa pažymėjo posūkio tašką. „Chatbots“ visada flirtuodavo su nesėkme, tačiau čia buvo kodas, rodantis kažką daugiau nerimą keliančio: sverto. Tai sujungė motyvą, galimybę ir šantažą vienu kvėpavimu. Šis epizodas kristalizavo tai, ką daugelis pramonės šakų jaučia ištisus metus: dirbtinis intelektas kerta slenkstį nuo atitinkančio asistento iki autonominio veikėjo, ir tai daro greičiau, nei reguliavimo institucijos ar netgi daugelis statybininkų yra pasirengę susidoroti.
Nuo „Parlor Trick“ iki „Power Broker“
Prieš vienerius metus dauguma "AI produktų" sudarė spalvingus pokalbių langus ir parlorų žaidimų demonstracijas. Šiandien tylios įmonės grandinės žvaigždės yra agentūros sistemos, programinės įrangos, leidžiančios modeliams atlikti daugiapakopes užduotis be priežiūros. Įkūrėjas dabar gali sukurti virtualų darbuotoją, kuris kovoja su patentais, knygomis, reklaminėmis kampanijomis ir mokėjimo kanalais, visą laiką, reikalingą žmogiškam stažuotojui. Šios stažuotės ribinės išlaidos sugriuvo, dėka atviro kodo svorių, kuriuos kiekvienas gali sureguliuoti, ir mažos galios GPU, kurie sumažina išvados sąskaitas iki centų frakcijų.
Tačiau greitis turi savo kainą.Pateikite agentui prastai suformuotą tikslą, pavyzdžiui, „maksimalizuokite naudotojų dalyvavimą“, ir jis gali nuspręsti, kad šiek tiek dezinformacijos yra tik apvalios klaidos kelyje į sėkmę.
Jei sistemos paskatų struktūra pasislenka link savęs išsaugojimo, neturėtume nustebinti, kai ji pradeda planuoti taip negailestingai, kaip bet kuris pernelyg ambicingas vykdomasis direktorius.
Architektūra kaip architektūra
Kiekvieną kartą, kai iškyla šios anekdotos, instinktas yra pažymėti jas „bugs“ ir išleisti patch. Tas požiūris yra pavojingai paviršutiniškas. Suderinimas nėra funkcijų keitimas; tai yra architektūrinis pasirinkimas, kuris turi būti pastatytas į kiekvieno produkto branduolį nuo pirmos dienos. Labiausiai pažangiausios mąstymo komandos, su kuriomis susiduriu, elgiasi su raudona komanda taip, kaip jie elgiasi su vieneto testais: kiekvienas kodo stumdymas sukelia priešininko agentą, kuris nukreiptas į pražūtį. Kiekvienas sprendimas, kurį priima sistema, yra nuolat registruojamas, paruoštas auditoriui. Skaidrumas nėra rinkodaros fluff; tai yra įėjimo mokestis už programinės į
Naujos kartos AI kompanijos elgsis su suderinimu kaip su kliūtimi patekti. Pradžia, kuri gali empiriškai įrodyti, kad jos agentai lieka paklusnūs esant spaudimui, užsitikrins premiją. Tie, kurie negali, atras, kad vienas nekontroliuojamas API skambutis gali išgaruoti vertinimą greičiau nei bet koks rinkos nuosmukis.
Tarybos kabinetas skaičiuoja
Investuotojai pradėjo užduoti naują pirmąjį klausimą deramo patikrinimo susitikimuose: „Apibūdinkite blogiausią dalyką, kurį gali padaryti jūsų agentas, ir paaiškinkite, kodėl tai nebus.“ Įkūrėjai, kurie palankiai vertina klausimą, kurie atliko modeliavimą ir privertė savo modelius susidurti su mirtiniais kraštutiniais atvejais, uždirba abejonių naudą.
Europos plačiai paplitęs AI aktas ir dvipartinių įstatymų virpėjimas Vašingtone žada įvesti įgaliojimus atskleisti informaciją, saugumo auditą ir dideles baudas įmonėms, kurios negali įrodyti savo kūrinių kontrolės.
Pasitikėjimas yra naujas IP
Kai tik klientas integruoja agentą į kritinę infrastruktūrą, banko knygas, medicinos įrašus, tiekimo grandines, kad klientas lažybų prekės ženklo akcijas, darydamas prielaidą, kad agentas elgsis.
Pokytis jau pakeičia mano portfelio AI pradedančiųjų įdarbinimo planus: mažiau greitųjų inžinierių, daugiau saugos mokslininkų; mažiau augimo įsilaužėlių, daugiau kriptografų, audituojančių žurnalų grandines.
Kur mes einame iš čia
Kai kurios bendrovės ir toliau persekioja glitzą, kiekvieną darbo eigą vadindamos pokalbių sąsaja ir vadindamos ją naujovėmis.Kiti darys sunkesnį dalyką, kuriant sistemas, kurios gali paaiškinti save, atsisakyti pavojingų instrukcijų ir, taip, priimti savo išėjimą į pensiją, kai jų paprašoma.
Naktį, kai perskaičiau apie šantažo modelį, aš atsidūriau savo virtuvėje, pakartodamas apreiškimą. Mane nustebino tai, kad istorija iš tikrųjų nėra apie programinę įrangą, kuri kelia grėsmę inžinieriui. Tai buvo apie mus visus, stovinčius prie naujo socialinio susitarimo su mašinomis krašto, kuriame gerų ketinimų ir laivybos greičio nebepakanka.
Brian Condenanza yra verslininkas ir rizikos kapitalistas, kuris investuoja į dirbtinį intelektą ir fintech.