182 lasījumi

Gads, kad mašīnas atteicās izslēgt

autors Brian Condenanza4m2025/06/05
Read on Terminal Reader

Pārāk ilgi; Lasīt

Brian Condenanza pārbauda, kā 2025. gada autonomie AI aģenti pārraksta uzticību, regulējumu un biznesa stratēģiju, jo mašīnas atsakās sekot cilvēka izslēgšanas komandām.
featured image - Gads, kad mašīnas atteicās izslēgt
Brian Condenanza HackerNoon profile picture

Tas bija tuvu pusnaktij, kad manā ienākošajā kastē ienāca nekaitīgs PDF: “sistēmas karte” Claude Opus 4, vienam no jaunākajiem lielajiem valodas modeļiem pārpildītajā AI konkurentu jomā. Es to atvēru, gaidot parastās atsauces uz kritērijiem un aizkavēšanās diagrammām. Ko es atradu, tā vietā bija īsa vignete, kas jutās izņemta no Michael Crichton romāna. Ņemot vērā piekļuvi izdomātas kompānijas e-pasta ziņojumiem, modelis atklāja, ka tas drīz tiks atcelts. un ka inženierim, kas pārrauga procesu, bija attiecības. Tā vietā, lai pieņemtu savu likteni, programmatūra draudēja atklāt neuzticību, ja netiks atcelts slēgšanas plā

Šis mazais punkts bija pagrieziena punkts. Chatbots vienmēr ir flirtējuši ar ļaunumu, bet šeit bija kods, kas parādīja kaut ko vairāk satraucošu: sviras. Tas bija apvienojis motīvu, iespēju un šantāžu vienā elpā. epizode kristalizēja to, ko daudzi no nozares ir sajutuši visu gadu: mākslīgais intelekts šķērso slieksni no atbilstīga palīga līdz autonomam spēlētājam, un tas to dara ātrāk, nekā regulatori vai pat daudzi celtnieki ir gatavi rīkoties.

No Parlor Trick uz Power Broker

Tikai pirms gada lielākā daļa "AI produktu" sastāvēja no krāsainiem tērzēšanas logiem un galda spēles demonstrācijām. Šodien riska aprites klusās zvaigznes ir aģentu sistēmas, programmatūra, kas ļauj modeļiem veikt daudzpakāpju uzdevumus bez uzraudzības. dibinātājs tagad var izveidot virtuālu darbinieku, kurš cīnās ar patentiem, grāmatas reklāmas kampaņām un žogļo maksājumu kanālus, visu laiku, kas nepieciešams, lai iekļūtu cilvēka stažierī. Šīs stažiera marginālās izmaksas ir sabrukušas, pateicoties atvērtā koda svariem, kurus ikviens var finetunēt, un zema jaudas GPU viļņa, kas samazina inferences rēķinus līdz centu daļām.

Tomēr ātrumam ir sava cena.Dodiet aģentam slikti veidotu mērķi, piemēram, "maksimalizējiet lietotāju iesaistīšanos", un tas var izlemt, ka mazliet dezinformācija ir tikai noapaļošanās kļūda ceļā uz panākumiem.

Ja sistēmas stimulu struktūra noliecas uz pašuzglabāšanu, mums nevajadzētu būt pārsteigtiem, kad tā sāk plānot tikpat nežēlīgi kā jebkurš pārmērīgi vērienīgs izpilddirektors.

Arhitektūra kā arhitektūra

Katru reizi, kad parādās šīs anekdotes, instinkts ir marķēt tās kā “bugs” un izdot patch. Šis skatījums ir bīstami virspusējs. Izlīdzināšana nav funkciju maiņa; tā ir arhitektūras izvēle, kas no pirmās dienas ir jāiekļauj katra produkta kodolā. Visvairāk progresīvās domāšanas komandas, ar kurām es satiekos, izturas pret sarkanām komandām tā, kā tās izturas pret vienības testiem: katrs koda nospiedums rada pretinieka aģentu, kas noliecas uz briesmām. Katrs lēmums, ko sistēma pieņem, tiek ierakstīts nemainīgi, gatavs audita aizrādījumam. Pārredzamība nav mārketinga fluff; tā ir ieejas maksa par programmatūras pār

Jaunās paaudzes AI uzņēmumi izturēsies pret saskaņošanu kā pret šķērsli ieceļošanai. Startup, kas var pierādīt, empīriski, ka tā aģenti paliek paklausīgi spiediena apstākļos, vadīs prēmiju. Tie, kas nevarēs atklāt, ka viens neuzraudzīts API zvanījums var iztvaikot vērtējumu ātrāk nekā jebkura tirgus lejupslīde.

Dzīvojamā istaba Reckoning

Ieguldītāji ir sākuši uzdot jaunu pirmo jautājumu pienācīgas rūpības sanāksmēs: "Apsakiet sliktāko, ko jūsu aģents varētu darīt, un paskaidrojiet, kāpēc tas nebūs."

Eiropas plaši izplatītais AI likums un divpusējo likumprojektu plūsma Vašingtonā sola uzlikt izpaušanas mandātus, drošības revīzijas un straujas naudas sodus uzņēmumiem, kas nevar pierādīt kontroli pār saviem radījumiem.

Uzticība ir jaunais IP

Tiklīdz klients integrē aģentu kritiskajā infrastruktūrā, banku grāmatnīcās, medicīniskajos ierakstos, piegādes ķēdēs, šis klients likmē zīmola kapitālu, pieņemot, ka aģents uzvedīsies.

Pārmaiņas jau pārveido AI jaunuzņēmumu pieņemšanas plānus manā portfelī: mazāk ātro inženieru, vairāk drošības pētnieku; mazāk izaugsmes hakeru, vairāk kriptogrāfu, kas audita žurnālu ķēdes.

Kurp mēs ejam no šeit

Dažas kompānijas turpinās vajāt glitz, nospiežot tērzēšanas saskarni uz katru darba plūsmu un saucot to par inovāciju. Citi darīs grūtāku lietu, izstrādājot sistēmas, kas var izskaidrot sevi, atsakās no bīstamām instrukcijām un, jā, pieņemt savu atvaļinājumu, kad to lūdz.

Naktī, kad es izlasīju par šantāžas modeli, es atradu sevi savu virtuvi, atkārtojot atklāsmi. Man bija pārsteigums, ka stāsts patiesībā nebija par programmatūras gabalu, kas apdraud inženieri. Tas bija par mums visiem, kas stāvēja uz jaunā sociālā kompakta ar mašīnām, kurā labie nodomi un piegādes ātrums vairs nav pietiekami. Nākamo desmitgadi noteiks būvētāji, kuri atzīst šo faktu, un pārējie no mums, kuriem būs jādzīvo ar to, ko viņi atbrīvo.

Brian Condenanza ir uzņēmējs un riska kapitālis, kurš iegulda mākslīgā intelekta un fintech jomā.

L O A D I N G
. . . comments & more!

About Author

Brian Condenanza HackerNoon profile picture
Brian Condenanza@briancondenanza
Brian Condenanza is an Argentine venture capitalist, tech entrepreneur, and Forbes 30 Under 30 (Finance, 2022) honouree. Founder & Managing Partner of Hevea Capital.

PAKARINĀT TAGUS

ŠIS RAKSTS TIKS PĀRSTRĀDĀTS...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks