Преди няколко месеца 28-годишният главен изпълнителен директор на Scale AI Александър Ванг направи заглавия след компанията си, след изключително успешен кръг от финансиране, включващ Meta, Amazon и Microsoft. Въпреки че историята на успеха на Уан е драматична – от 19-годишен от MIT до най-младия самоусъвършенстван милиардер в света – и добре докладвана, много по-малко е казано за това как неговата компания, масивна фирма за етикетиране на данни, е станала.Благодарение на часове изследвания в институционални проучвания и сравнително неясни доклади, аз все повече осъзнавам поредица от еднакво драматични завои в неотдавнашната история на компанията, една, която преплита историите на стотици хиляди хора и крайната съдба на нашия свят вследствие на революцията на AI. Повече от 1 млрд. долара в венчурния капитал Повече от 1 млрд. долара в венчурния капитал The World of AI Data За да обясним това изискване, нека използваме аналогията на писалка и мастило: вмъкната писалка не би могла да се изразява на хартия, както в случая с бутилка мастило без писалка.По същия начин, продукт на изкуствения интелект като ChatGPT, Claude и Gemini е внимателната комбинация от данни за обучение и архитектура – обикновено модел в стил Трансформер – позволяващ изразяването на данните в използваема форма. Голямо количество данни е необходимо, за да се обучават съвременните големи езикови модели (ChatGPT 4o, известен LLM, се оценява, че има около__ __), и по този начин компаниите с обща употреба на изкуствения интелект се обърнаха към един от най-големите хранилища с отворен код на езикови данни в човешката история - интернет.В допълнение към обучението по образци от текст и изображения, извлечени от всеки уебсайт, който може да се замисли, най-съвременните LLM постоянно се хранят с повече данни от и от Неумолимата нужда от по-добри данни задвижва целия пазар за надеждна информация, използвана за обучение на AI, сама по себе си горчива етична дилема, която ще разчупим в бъдещи статии. 1,8 милиарда параметри Собственост на данни Разговори с потребителите Собственост на данни Разговори с потребителите Why Humans? Не е изненадващо, че в големи набори от данни, разнообразие от вредно съдържание, изпълняващо гамата от сексуално експлицитен материал до реч на омразата, се съчетава със здрави, образователни данни за обучение, както беше случаят с подкомплекта от интернет данни, използвани за обучение на повечето съвременни LLM чат ботове. За да се постигне компромис между използването на човешки преглед и запазването на мащабируемостта на модела, AI компаниите са приели модела Reinforcement Learning from Human Feedback (RLHF): по същество, човешките работници ще етикетират и класифицират потенциално вредни данни, които след това се захранват чрез последователност за укрепване на ученето, за да коригират модела според съдържанието на данните за обучението. Терабайт данни за обучение Терабайт данни за обучение От техническа гледна точка, RLHF не се различава от стандартните алгоритми за машинно обучение: дълбока мрежа се използва за присвояване на резултат на отговор, генериран от AI въз основа на реални, човешки етикетирани данни, докато AI се прави многократно, за да генерира отговори, които след това се подават в тази дълбока мрежа, ефективно класифицирайки го според това колко вреден е отговорът. Изход, считан за подобен на човешките етикетирани "вредни" данни, ще повлияе отрицателно на тенденцията на модела да генерира нещо подобно в бъдеще, докато изход, считан за различен от горепосочените данни, ще даде на модела склонност да генерира такива изходи, когато се насърчава при подобни условия С други думи, този процес „учи“ модела на ИИ да произвежда отговори, колкото е възможно по-различни от вредните данни, маркирани с човешки етикети, ефективно финализирайки го без необходимост от преквалификация. Този блог пост Този блог пост The Issue? Вместо това, моделът на RLHF, който предполагаемо прави AI безопасен и доброкачествен, е силно зависим от стотици хиляди неплатени работници, повечето от които допринасят за безценни услуги за етикетиране на данни чрез онлайн платформи за „облачна работа“. Повечето от тези платформи следват формат „заявител и изпълнител“, в който множество онлайн работници се възлагат на една задача, получавайки заплащане при завършване на каквото и да е задача, вариращо от етикетиране на съдържанието на изображение или видео до пробиване на текстови стени за възможни ключови думи или контексти. Тези работници са безценни приносчици за сигурността на AI, както го знаем – причината, поради която публично пуснатият AI е известен като процъф подчертава лошите бизнес практики, предприети върху работниците от големи облачни платформи за етикетиране на данни на ИИ, като Amazon Mechanical Turk, Appen и Remotasks. Доклад за справедливата работа през 2024 г. на Оксфордския интернет институт Доклад за справедливата работа през 2024 г. на Оксфордския интернет институт 
 
 
 
 
 
 Нито една от споменатите платформи няма механизми или политики, които да гарантират, че изпълнителите получават плащане от кандидатите за завършени задачи. Само една от споменатите платформи (Appen) има политики, които гарантират QoL на работниците чрез смекчаване на претоварването. Нито една от споменатите платформи няма ясни и лесно тълкувани договори, които да определят условията за плащане и работа. Нито една от споменатите платформи не е показала, че взима обратна връзка от изпълнителите при вземането на изпълнителни решения. Само една от споменатите платформи (Appen) има политики, които признават правото на сдружаване на работници (съюзиране). Real People, Real Impact Тези хора, често отчаяни да печелят малко допълнителен доход, за да подкрепят семейството си, прекарват часове пред компютъра си всеки ден, преминавайки през незначителни и повтарящи се задачи за етикетиране на данни, често се сблъсквайки с най-лошите маниери на човешката деградация. чрез графични и подробни описания или изображения на изнасилване, злополука, самонараняване и злоупотреба с животни, свидетелството на всички от които е част от очаквания им дълг, без последващи действия или консултации. Често се съобщава за травми Често се съобщава за травми Като изпълнители работниците не са защитени от законите за заплатите и в много случаи не се заплащат за извънредно работно време. Отдалечените задачи поставят ограничение за максималния брой часове работа, за които се заплаща на участник, а платформата възлага задачи след дълъг процес на „квалификация“, за който не се плаща на потенциален изпълнител. – дори опитни работници, способни да изпълняват задачи ефективно, понякога се борят да печелят на рекламираната цена от 10-15 долара на час, а по-малко способните участници са платени още по-малко, при по-малко от 2 долара в някои случаи. Дори ако могат да печелят пари, работниците също са измъчвани от нечестността на заявителя и забавянето на заплащането. стотици данни за етикетиране на ИИ за тяхната работа - над 70 000 задачи - на основата на това, че те са били неудовлетворителни. Тъжно малко Отказва да плати Тъжно малко Отказва да плати Стотици хиляди хора работят ежедневно в областта на етикетирането на данни с изкуствен интелект, но разочарованието им е потиснато от лошата поддръжка на клиентите и липсата на платформа.Когато са интервюирани от изследователи от Института за справедливост, задачите твърдят, че имат опит или познания за поддръжка на клиентите Някои служители дори съобщават на MIT Tech Review, че понякога клиентската поддръжка . Като цяло са лоши отказват да се справят с претенциите си за забавяне на заплащането Като цяло са лоши отказват да се справят с претенциите си за забавяне на заплащането Случайно, Remotasks, една от най-големите такива фирми за етикетиране на данни за ИИ, е ключова субсидия в Scale AI, предоставяща етикетирани данни за обучение като част от услугите за изграждане на ИИ на компанията. Официално създаден, за да "запази поверителността на потребителите", това разделяне се опитва да маскира някои от по-малко вкусните бизнес практики на голяма компания от общественото око; всъщност, когато се вземе предвид, че Remotasks е постигнал само 1/10 от справедливия работен мащаб на Fairwork, като 10/10 е "минималното изискване за справедлива работна среда", вероятно има много за обсъждане за малтретирането на Scale на самите работници, които подкрепят продуктите на ИИ чрез тяхната упорита работа. 
 
 Тази статия е донесена до вас от Нашата AI, студент-основана и студент-председател AI етика организация, която се стреми да разнообрази перспективите в AI отвъд това, което обикновено се обсъжда в съвременните медии. Тази статия е донесена до вас от Нашата AI, студент-основана и студент-председател AI етика организация, която се стреми да разнообрази перспективите в AI отвъд това, което обикновено се обсъжда в съвременните медии. Raise Awareness Като силен привърженик на развитието на AI, насочено към човека, аз твърдя, че настоящите стандарти и политики са недостатъчни, за да се гарантира, че нашите технологии не оказват неблагоприятно и подвеждащо въздействие върху нашето човечество.Ако се грижите достатъчно за отговорното и безопасно развитие на AI, не само за Силициевата долина, но и за човечеството като цяло, аз силно ви насърчавам да разпространявате осведомеността за нарушенията на правата на работниците в индустрията на AI – независимо дали споделяте тази статия или правите собствени изследвания – и подкрепяте политическите решения, които защитават правото на работниците на справедлива заплата и представителство на работното място. Светът заслужава да знае – и вие трябва да играете своята роля. Написано от Thomas Yin

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Read My Stories

Това аудио е създадено на оригиналния език на историята!

Неразказаната експлоатация на работниците зад големите езикови модели

About Author

КОМЕНТАРИ

ЗАКАЧВАЙТЕ ЕТИКЕТИ

ТАЗИ СТАТИЯ Е ПРЕДСТАВЕНА В

Related Stories

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps