650 показания
650 показания

Неразказаната експлоатация на работниците зад големите езикови модели

от Our AI7m2025/06/29
Read on Terminal Reader

Твърде дълго; Чета

featured image - Неразказаната експлоатация на работниците зад големите езикови модели
Our AI HackerNoon profile picture
0-item

Преди няколко месеца 28-годишният главен изпълнителен директор на Scale AI Александър Ванг направи заглавия след компанията си, след изключително успешен кръг от финансиране, включващ Meta, Amazon и Microsoft.Повече от 1 млрд. долара в венчурния капиталВъпреки че историята на успеха на Уан е драматична – от 19-годишен от MIT до най-младия самоусъвършенстван милиардер в света – и добре докладвана, много по-малко е казано за това как неговата компания, масивна фирма за етикетиране на данни, е станала.Благодарение на часове изследвания в институционални проучвания и сравнително неясни доклади, аз все повече осъзнавам поредица от еднакво драматични завои в неотдавнашната история на компанията, една, която преплита историите на стотици хиляди хора и крайната съдба на нашия свят вследствие на революцията на AI.

Повече от 1 млрд. долара в венчурния капитал

The World of AI Data

За да обясним това изискване, нека използваме аналогията на писалка и мастило: вмъкната писалка не би могла да се изразява на хартия, както в случая с бутилка мастило без писалка.По същия начин, продукт на изкуствения интелект като ChatGPT, Claude и Gemini е внимателната комбинация от данни за обучение и архитектура – обикновено модел в стил Трансформер – позволяващ изразяването на данните в използваема форма.


Голямо количество данни е необходимо, за да се обучават съвременните големи езикови модели (ChatGPT 4o, известен LLM, се оценява, че има около__1,8 милиарда параметри__), и по този начин компаниите с обща употреба на изкуствения интелект се обърнаха към един от най-големите хранилища с отворен код на езикови данни в човешката история - интернет.В допълнение към обучението по образци от текст и изображения, извлечени от всеки уебсайт, който може да се замисли, най-съвременните LLM постоянно се хранят с повече данни отСобственост на даннии отРазговори с потребителитеНеумолимата нужда от по-добри данни задвижва целия пазар за надеждна информация, използвана за обучение на AI, сама по себе си горчива етична дилема, която ще разчупим в бъдещи статии.

Собственост на данниРазговори с потребителите

Why Humans?

Не е изненадващо, че в големи набори от данни, разнообразие от вредно съдържание, изпълняващо гамата от сексуално експлицитен материал до реч на омразата, се съчетава със здрави, образователни данни за обучение, както беше случаят с подкомплекта от интернет данни, използвани за обучение на повечето съвременни LLM чат ботове.Терабайт данни за обучениеЗа да се постигне компромис между използването на човешки преглед и запазването на мащабируемостта на модела, AI компаниите са приели модела Reinforcement Learning from Human Feedback (RLHF): по същество, човешките работници ще етикетират и класифицират потенциално вредни данни, които след това се захранват чрез последователност за укрепване на ученето, за да коригират модела според съдържанието на данните за обучението.

Терабайт данни за обучение

От техническа гледна точка, RLHF не се различава от стандартните алгоритми за машинно обучение: дълбока мрежа се използва за присвояване на резултат на отговор, генериран от AI въз основа на реални, човешки етикетирани данни, докато AI се прави многократно, за да генерира отговори, които след това се подават в тази дълбока мрежа, ефективно класифицирайки го според това колко вреден е отговорът. Изход, считан за подобен на човешките етикетирани "вредни" данни, ще повлияе отрицателно на тенденцията на модела да генерира нещо подобно в бъдеще, докато изход, считан за различен от горепосочените данни, ще даде на модела склонност да генерира такива изходи, когато се насърчава при подобни условияТози блог постС други думи, този процес „учи“ модела на ИИ да произвежда отговори, колкото е възможно по-различни от вредните данни, маркирани с човешки етикети, ефективно финализирайки го без необходимост от преквалификация.

Този блог пост

The Issue?

Вместо това, моделът на RLHF, който предполагаемо прави AI безопасен и доброкачествен, е силно зависим от стотици хиляди неплатени работници, повечето от които допринасят за безценни услуги за етикетиране на данни чрез онлайн платформи за „облачна работа“. Повечето от тези платформи следват формат „заявител и изпълнител“, в който множество онлайн работници се възлагат на една задача, получавайки заплащане при завършване на каквото и да е задача, вариращо от етикетиране на съдържанието на изображение или видео до пробиване на текстови стени за възможни ключови думи или контексти. Тези работници са безценни приносчици за сигурността на AI, както го знаем – причината, поради която публично пуснатият AI е известен като процъфДоклад за справедливата работа през 2024 г. на Оксфордския интернет институтподчертава лошите бизнес практики, предприети върху работниците от големи облачни платформи за етикетиране на данни на ИИ, като Amazon Mechanical Turk, Appen и Remotasks.

Доклад за справедливата работа през 2024 г. на Оксфордския интернет институт
  • Нито една от споменатите платформи няма механизми или политики, които да гарантират, че изпълнителите получават плащане от кандидатите за завършени задачи.
  • Само една от споменатите платформи (Appen) има политики, които гарантират QoL на работниците чрез смекчаване на претоварването.
  • Нито една от споменатите платформи няма ясни и лесно тълкувани договори, които да определят условията за плащане и работа.
  • Нито една от споменатите платформи не е показала, че взима обратна връзка от изпълнителите при вземането на изпълнителни решения.
  • Само една от споменатите платформи (Appen) има политики, които признават правото на сдружаване на работници (съюзиране).

Real People, Real Impact

Тези хора, често отчаяни да печелят малко допълнителен доход, за да подкрепят семейството си, прекарват часове пред компютъра си всеки ден, преминавайки през незначителни и повтарящи се задачи за етикетиране на данни, често се сблъсквайки с най-лошите маниери на човешката деградация.Често се съобщава за травмичрез графични и подробни описания или изображения на изнасилване, злополука, самонараняване и злоупотреба с животни, свидетелството на всички от които е част от очаквания им дълг, без последващи действия или консултации.

Често се съобщава за травми

Като изпълнители работниците не са защитени от законите за заплатите и в много случаи не се заплащат за извънредно работно време. Отдалечените задачи поставят ограничение за максималния брой часове работа, за които се заплаща на участник, а платформата възлага задачи след дълъг процес на „квалификация“, за който не се плаща на потенциален изпълнител.Тъжно малко– дори опитни работници, способни да изпълняват задачи ефективно, понякога се борят да печелят на рекламираната цена от 10-15 долара на час, а по-малко способните участници са платени още по-малко, при по-малко от 2 долара в някои случаи. Дори ако могат да печелят пари, работниците също са измъчвани от нечестността на заявителя и забавянето на заплащането.Отказва да платистотици данни за етикетиране на ИИ за тяхната работа - над 70 000 задачи - на основата на това, че те са били неудовлетворителни.

Тъжно малкоОтказва да плати

Стотици хиляди хора работят ежедневно в областта на етикетирането на данни с изкуствен интелект, но разочарованието им е потиснато от лошата поддръжка на клиентите и липсата на платформа.Когато са интервюирани от изследователи от Института за справедливост, задачите твърдят, че имат опит или познания за поддръжка на клиентитеКато цяло са лошиНякои служители дори съобщават на MIT Tech Review, че понякога клиентската поддръжкаотказват да се справят с претенциите си за забавяне на заплащането.

Като цяло са лошиотказват да се справят с претенциите си за забавяне на заплащането

Случайно, Remotasks, една от най-големите такива фирми за етикетиране на данни за ИИ, е ключова субсидия в Scale AI, предоставяща етикетирани данни за обучение като част от услугите за изграждане на ИИ на компанията. Официално създаден, за да "запази поверителността на потребителите", това разделяне се опитва да маскира някои от по-малко вкусните бизнес практики на голяма компания от общественото око; всъщност, когато се вземе предвид, че Remotasks е постигнал само 1/10 от справедливия работен мащаб на Fairwork, като 10/10 е "минималното изискване за справедлива работна среда", вероятно има много за обсъждане за малтретирането на Scale на самите работници, които подкрепят продуктите на ИИ чрез тяхната упорита работа.

Тази статия е донесена до вас от Нашата AI, студент-основана и студент-председател AI етика организация, която се стреми да разнообрази перспективите в AI отвъд това, което обикновено се обсъжда в съвременните медии.

Тази статия е донесена до вас от Нашата AI, студент-основана и студент-председател AI етика организация, която се стреми да разнообрази перспективите в AI отвъд това, което обикновено се обсъжда в съвременните медии.

Raise Awareness

Като силен привърженик на развитието на AI, насочено към човека, аз твърдя, че настоящите стандарти и политики са недостатъчни, за да се гарантира, че нашите технологии не оказват неблагоприятно и подвеждащо въздействие върху нашето човечество.Ако се грижите достатъчно за отговорното и безопасно развитие на AI, не само за Силициевата долина, но и за човечеството като цяло, аз силно ви насърчавам да разпространявате осведомеността за нарушенията на правата на работниците в индустрията на AI – независимо дали споделяте тази статия или правите собствени изследвания – и подкрепяте политическите решения, които защитават правото на работниците на справедлива заплата и представителство на работното място.

Светът заслужава да знае – и вие трябва да играете своята роля.


Написано от Thomas Yin

L O A D I N G
. . . comments & more!

About Author

Our AI HackerNoon profile picture
Our AI@OurAI
Student-led AI Ethics organization publishing high-effort articles about AI's impact on the world. Check us out at https://www.our-ai.org/ !

ЗАКАЧВАЙТЕ ЕТИКЕТИ

ТАЗИ СТАТИЯ Е ПРЕДСТАВЕНА В...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks