Neapsakomas darbininkų išnaudojimas už didelių kalbų modelių

Prieš keletą mėnesių 28-erių metų „Scale AI“ generalinis direktorius Aleksandras Wangas padarė antraštes po savo įmonės, po labai sėkmingo finansavimo raundo, kuriame dalyvavo „Meta“, „Amazon“ ir „Microsoft“.Daugiau nei 1 mlrd. JAV dolerių rizikos kapitaloNors Vango sėkmės istorija yra dramatiška – nuo 19 metų MIT atsistatydinimo iki jauniausio savarankiškai sukurto milijardieriaus pasaulyje – ir gerai pranešta, daug mažiau buvo pasakyta apie tai, kaip jo kompanija, didžiulė duomenų ženklinimo įmonė, tapo.Dėka valandų mokslinių tyrimų institucinių tyrimų ir santykinai neaiškių ataskaitų, aš vis labiau suvokiau vienodai dramatiškų posūkių seriją bendrovės neseniai istorijoje, kuri sujungia šimtų tūkstančių žmonių istorijas ir galutinį mūsų pasaulio likimą po AI revoliucijos.

Daugiau nei 1 mlrd. JAV dolerių rizikos kapitalo

The World of AI Data

Tech kompanijos naudoja duomenis beveik nuo pat jų įkūrimo; vis dėlto naujai atrastas AI įrankių paplitimas lėmė precedento neturintį naujų duomenų poreikį.Šiam reikalavimui paaiškinti naudokime rašiklio ir rašiklio analogiją: įklijuotas rašiklis negalėtų išreikšti savęs popieriuje, kaip tai atsitinka su rašiklio buteliu be rašiklio.Taip pat, AI produktas, pvz., „ChatGPT“, „Claude“ ir „Gemini“, yra kruopštus mokymo duomenų ir architektūros derinys – paprastai „Transformer“ stiliaus modelis – leidžiantis išreikšti duomenis į naudojamą formą.

Daug duomenų reikia mokyti šiuolaikinius didelių kalbų modelius (apskaičiuota, kad "ChatGPT 4o", žinomas LLM, turi apie__1,8 mlrd. parametrų įvesties__), ir taip bendro naudojimo AI kompanijos pasuko į vieną didžiausią atviro kodo duomenų saugyklą žmonijos istorijoje - internetą. be to, kad mokomi tekstų ir vaizdų pavyzdžiai, surinkti iš kiekvienos įsivaizduojamos svetainės, pažangiausi LLM nuolat maitinami daugiau duomenų išNuosavybės duomenysir išPokalbiai su naudotojaisNenutrūkstamas poreikis geresniems duomenims skatina visą patikimos informacijos rinką, naudojamą dirbtinio intelekto mokymui, pati savaime yra karti etinė dilema, kurią mes išardysime būsimuose straipsniuose.

Nuosavybės duomenys Pokalbiai su naudotojais

Why Humans?

Nenuostabu, kad dideliuose duomenų rinkiniuose įvairūs kenksmingi turiniai, veikiantys nuo seksualiai aiškios medžiagos iki neapykantos kalbos, yra derinami su sveikais, švietimo mokymo duomenimis, kaip ir su interneto duomenų pogrupiais, naudojamais mokyti daugumą šiuolaikinių LLM pokalbių robotų.Terabyte mokymo duomenųKad būtų pasiektas kompromisas tarp žmogaus peržiūros naudojimo ir modelio mastelio išsaugojimo, AI įmonės priėmė Reinforcement Learning from Human Feedback (RLHF) modelį: iš esmės, žmogaus darbuotojai ženklintų ir klasifikuotų potencialiai kenksmingus duomenis, kurie tada maitinami per stiprinimo-mokymosi seką, kad modelis būtų pritaikytas pagal mokymo duomenų turinį.

Terabyte mokymo duomenų

Techniškai kalbant, RLHF nesiskiria nuo standartinių mašininio mokymosi stiprinimo mokymosi algoritmų: gilus tinklas naudojamas paskirstyti rezultatą AI generuojamam atsakymui, pagrįstam realiu, žmogumi pažymėtais duomenimis, o AI pakartotinai sukuriamas atsakymams, kurie tada tiekiami į šį gilų tinklą, veiksmingai klasifikuojant jį pagal tai, kaip žalingas yra atsakymas. išvestis, laikoma panaši į žmogaus pažymėtus „žalingus“ duomenis, neigiamai paveiks modelio tendenciją ateityje generuoti kažką panašaus, o išvestis, laikoma kitokia nei minėti duomenys, suteiks modeliui polinkį generuoti tokias išvestis, kai skatinama panašiomis sąlygomisŠiame tinklaraštyjeKitaip tariant, šis procesas „mokys“ AI modelį gaminti atsakymus, kiek įmanoma skirtingus nuo žalingų žmonių paženklintų duomenų, veiksmingai jį sutvarkyti be poreikio pertreniruoti.

Šiame tinklaraštyje

The Issue?

Vietoj to, RLHF modelis, kuris tariamai daro AI saugų ir gerybinį, labai priklauso nuo šimtų tūkstančių nepakankamai apmokamų darbuotojų, kurių dauguma prisideda prie neįkainojamų duomenų ženklinimo paslaugų per internetines „debesinės“ platformas. Dauguma šių platformų seka „prašytojo ir rangovo“ formatu, kuriame daugybė internetinių darbuotojų priskiriami vienai užduočiai, gaunant atlyginimą už užduoties užbaigimą, nuo vaizdo ar vaizdo įrašų turinio ženklinimo iki tekstinių sienų nuskaitymo galimiems raktiniams žodžiams ar kontekstams. Šie darbuotojai yra neįkainojami prisideda prie AI saugumo, kaip žinome - priežastis, kodėl viešai išleistas AI yra žinomas kaipOksfordo interneto instituto „Fairwork 2024“ ataskaitapabrėžia verslo netinkamą praktiką, kurią darbuotojams daro didelės debesijos AI duomenų ženklinimo platformos, tokios kaip „Amazon Mechanical Turk“, „Appen“ ir „Remotasks“.

Oksfordo interneto instituto „Fairwork 2024“ ataskaita

Nė viena iš minėtų platformų neturi mechanizmų ar politikos, užtikrinančios, kad rangovai gautų mokėjimą iš pareiškėjų už atliktas užduotis.
Tik viena iš minėtų platformų (Appen) turi politiką, užtikrinančią darbuotojų QoL mažinant pernelyg didelį darbą.
Nė viena iš minėtų platformų neturi aiškių ir lengvai aiškinamų sutarčių, kuriose būtų numatytos mokėjimo ir darbo sąlygos.
Nė viena iš minėtų platformų neįrodė, kad priima rangovų atsiliepimus priimant vykdomuosius sprendimus.
Tik viena iš minėtų platformų (Appen) turi politiką, kurioje pripažįstama darbuotojų asociacijos teisė (sąjunga).

Real People, Real Impact

Šie žmonės, dažnai beviltiškai uždirbti šiek tiek papildomų pajamų, siekiant palaikyti savo šeimą, praleisti valandų valandas priešais savo kompiuterį kiekvieną dieną, eiti per menkų ir pasikartojančių užduočių duomenų ženklinimo, dažnai susiduria su blogiausiais manieros žmogaus depravity.Pakartotinai pranešama apie traumągrafiniais ir išsamiais išprievartavimo, pykčio, savęs sužalojimo ir gyvūnų prievartavimo aprašymais ar vaizdais, kurių liudijimas yra jų numatomos pareigos dalis, be tolesnių veiksmų ar patarimų.

Pakartotinai pranešama apie traumą

Kaip rangovai, darbuotojai nėra apsaugoti pagal darbo užmokesčio įstatymus, o daugeliu atvejų jie nėra apmokami už viršvalandžius. Nuotolinės užduotys nustato ribą didžiausiam dalyviui mokamų darbo valandų skaičiui, o platforma priskiria užduotis po ilgo „kvalifikacijos“ proceso, už kurį potencialiam darbdaviui nėra mokama. Sutartys yra blogai ir dažnai dviprasmiškai parašytos, leidžiančios daugeliui darbuotojų netinkamai elgtis nepastebimai.Gaila mažai– net patyrę darbuotojai, galintys efektyviai atlikti užduotis, kartais stengiasi užsidirbti reklamuojamu 10–15 dolerių per valandą tarifu, o mažiau pajėgūs dalyviai buvo apmokami dar mažiau, kai kuriais atvejais mažiau nei 2 doleriais. Net jei jie sugeba užsidirbti šiek tiek pinigų, užduočių vykdytojus taip pat kankina prašytojo nesąžiningumas ir mokėjimo vėlavimai.Atsisakė mokėtišimtus AI duomenų ženklintojų už savo darbą – daugiau nei 70 000 užduočių – dėl to, kad jie buvo nepatenkinami.

Gaila mažai Atsisakė mokėti

Šimtai tūkstančių žmonių kasdien dirba AI duomenų ženklinimo srityje, tačiau jų nusivylimą atsitiktinai slopina prasta klientų palaikymas ir platformos trūkumas.Apskritai buvo blogaikai kurie darbdaviai netgi pranešė MIT Tech Review, kad klientų palaikymas kartaisatsisakė nagrinėti savo pretenzijas dėl išankstinio atlyginimo.

Apskritai buvo blogai atsisakė nagrinėti savo pretenzijas dėl išankstinio atlyginimo

Atsitiktinai, "Remotasks", viena iš didžiausių tokių "AI" duomenų ženklinimo firmų, yra pagrindinė "Scale AI" dotacija, teikianti ženklintus mokymo duomenis kaip bendrovės "AI" statybos paslaugų dalį. Oficialiai įsteigta siekiant "saugoti vartotojų konfidencialumą", šis atskyrimas bando užmaskuoti kai kurias mažiau skanias didelės įmonės verslo praktikas nuo visuomenės akių; iš tikrųjų, kai manoma, kad "Remotasks" pelnė tik 1/10 "Fairwork" sąžiningo darbo skalėje, o 10/10 yra "minimalus reikalavimas sąžiningai darbo aplinkai", tikrai yra daug ką aptarti apie "Scale" netinkamą elgesį su pačiais darbuotojais, kurie remia AI produktus per savo sunkų darbą.

Šią straipsnį jums atnešė Mūsų AI, studentų įsteigta ir studentų vadovaujama AI etikos organizacija, siekianti įvairinti AI perspektyvas už to, kas paprastai aptariama šiuolaikinėse žiniasklaidoje.

Šią straipsnį jums atnešė Mūsų AI, studentų įsteigta ir studentų vadovaujama AI etikos organizacija, siekianti įvairinti AI perspektyvas, viršijančias tai, kas paprastai aptariama šiuolaikinėse žiniasklaidoje.https://www.our-ai.org/ai-nexus/read!

Raise Awareness

RLHF yra geras dalykas, padarytas visais neteisingais būdais. Kaip tvirtas į žmones orientuoto AI vystymosi šalininkas, aš tvirtinu, kad dabartiniai standartai ir politika yra nepakankami, kad užtikrintų, jog mūsų technologijos nepakenktų ir nepagrįstai paveiktų mūsų žmoniją.Jei jūs pakankamai rūpinatės atsakingu ir saugiu AI vystymusi, ne tik Silicio slėniui, bet ir visai žmonijai, aš tvirtai raginu jus skleisti informuotumą apie darbuotojų teisių pažeidimus AI pramonėje – dalydamiesi šiuo straipsniu ar atliekant savo pačių tyrimus – ir remdami politikos sprendimus, apsaugančius darbuotojų teisę į teisingą darbo užmokestį ir atstovavimą darbo vietoje.

The world deserves to know – and you should play your part.

Parašė Thomas Yin

Neapsakomas darbininkų išnaudojimas už didelių kalbų modelių

Per ilgai; Skaityti

About Author

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

Trending Topics

Classic

Neon Noir

Minty

Newspaper

HN StartUps

Neapsakomas darbininkų išnaudojimas už didelių kalbų modelių

Per ilgai; Skaityti

About Author

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

SUSIJUSIOS ISTORIJOS

Trending Topics

Classic

Neon Noir

Minty

Newspaper

HN StartUps