650 αναγνώσεις
650 αναγνώσεις

Η ανεξήγητη εκμετάλλευση των εργαζομένων πίσω από τα μεγάλα γλωσσικά μοντέλα

με Our AI7m2025/06/29
Read on Terminal Reader

Πολύ μακρύ; Να διαβασω

featured image - Η ανεξήγητη εκμετάλλευση των εργαζομένων πίσω από τα μεγάλα γλωσσικά μοντέλα
Our AI HackerNoon profile picture
0-item

Πριν από μερικούς μήνες, ο 28χρονος διευθύνων σύμβουλος της Scale AI, Alexandr Wang, έκανε τίτλους μετά την εταιρεία του, μετά από έναν άγρια επιτυχημένο γύρο χρηματοδότησης που περιελάμβανε τη Meta, την Amazon και τη Microsoft.Πάνω από 1 δισ. δολάρια σε κεφάλαια επιχειρηματικού κινδύνουΠαρόλο που η ιστορία επιτυχίας του Wang είναι δραματική – από έναν 19χρονο που εγκατέλειψε το MIT μέχρι τον νεότερο αυτοδημιούργητο δισεκατομμυριούχο στον κόσμο – και καλά αναφερθεί, πολύ λιγότερο έχει ειπωθεί για το πώς έγινε η εταιρεία του, μια τεράστια εταιρεία επισήμανσης δεδομένων. Χάρη σε ώρες έρευνας σε θεσμικές μελέτες και σχετικά ασαφείς αναφορές, έχω γίνει όλο και πιο ενήμερος για μια σειρά εξίσου δραματικών στροφών στην πρόσφατη ιστορία της εταιρείας, μία που συνδέει τις ιστορίες εκατοντάδων χιλιάδων ανθρώπων και την τελική μοίρα του κόσμου μας μετά την επανάσταση της AI.

Πάνω από 1 δισ. δολάρια σε κεφάλαια επιχειρηματικού κινδύνου

The World of AI Data

Για να εξηγήσουμε αυτή την απαίτηση, ας χρησιμοποιήσουμε την αναλογία ενός μολύβδου και ενός μολύβδου: ένα μολύβι χωρίς μολύβδου δεν θα μπορούσε να εκφραστεί σε χαρτί, όπως συμβαίνει με ένα μπουκάλι με μολύβι χωρίς μολύβι. Ομοίως, ένα προϊόν τεχνητής νοημοσύνης όπως το ChatGPT, ο Claude και ο Gemini είναι ο προσεκτικός συνδυασμός δεδομένων κατάρτισης και μιας αρχιτεκτονικής – συνήθως μοντέλου τύπου Transformer – που επιτρέπει την έκφραση των δεδομένων σε μια χρήσιμη μορφή.


Μια μεγάλη ποσότητα δεδομένων είναι απαραίτητη για την κατάρτιση σύγχρονων μοντέλων μεγάλων γλωσσών (ChatGPT 4o, ένα εξέχον LLM, εκτιμάται ότι έχει περίπου__1,8 δισεκατομμύρια εισόδους παραμέτρων__), και έτσι οι εταιρείες γενικής χρήσης τεχνητής νοημοσύνης στράφηκαν στο μεγαλύτερο αποθετήριο ανοιχτού κώδικα γλωσσικών δεδομένων στην ανθρώπινη ιστορία - το Διαδίκτυο.Εκτός από την εκπαίδευση σε δείγματα κειμένου και εικόνων από κάθε ιστοσελίδα που μπορεί να φανταστεί κανείς, τα state-of-the-art LLMs τροφοδοτούνται συνεχώς με περισσότερα δεδομένα απόΙδιοκτησιακά δεδομέναΚαι απόΣυνομιλίες με τους χρήστεςΗ αμείλικτη ανάγκη για καλύτερα δεδομένα οδηγεί σε μια ολόκληρη αγορά για αξιόπιστες πληροφορίες που χρησιμοποιούνται για την εκπαίδευση της τεχνητής νοημοσύνης, ένα πικρό ηθικό δίλημμα που θα σπάσουμε σε μελλοντικά άρθρα.

Ιδιοκτησιακά δεδομέναΣυνομιλίες με τους χρήστες

Why Humans?

Δεν αποτελεί έκπληξη το γεγονός ότι σε μεγάλα σύνολα δεδομένων, μια ποικιλία επιβλαβών περιεχομένων που εκτελούν το φάσμα από το σεξουαλικά ρητό υλικό έως την ομιλία μίσους συνδυάζεται με υγιή εκπαιδευτικά δεδομένα κατάρτισης, όπως ήταν η περίπτωση με το υποσύνολο δεδομένων του Διαδικτύου που χρησιμοποιείται για την κατάρτιση των πιο σύγχρονων chatbots LLM.Terabytes δεδομένων εκπαίδευσηςΓια να επιτευχθεί ένας συμβιβασμός μεταξύ της χρήσης της ανθρώπινης αναθεώρησης και της διατήρησης της κλιμακωτότητας του μοντέλου, οι εταιρείες AI υιοθέτησαν το μοντέλο Reinforcement Learning from Human Feedback (RLHF): ουσιαστικά, οι ανθρώπινοι εργαζόμενοι θα επισημαίνουν και θα ταξινομούν δυνητικά επιβλαβή δεδομένα, τα οποία στη συνέχεια τροφοδοτούνται μέσω μιας ακολουθίας ενίσχυσης-μάθησης για να προσαρμόσουν το μοντέλο σύμφωνα με το περιεχόμενο των δεδομένων κατάρτισης.

Terabytes δεδομένων εκπαίδευσης

Από τεχνική άποψη, το RLHF δεν είναι διαφορετικό από τους τυπικούς αλγόριθμους μάθησης ενίσχυσης της μηχανικής μάθησης: ένα βαθύ δίκτυο χρησιμοποιείται για να εκχωρήσει μια βαθμολογία σε μια αντίδραση που παράγεται από την τεχνητή νοημοσύνη με βάση πραγματικά δεδομένα με ανθρώπινη σήμανση, ενώ η τεχνητή νοημοσύνη γίνεται επανειλημμένα για να δημιουργήσει απαντήσεις που στη συνέχεια τροφοδοτούνται σε αυτό το βαθύ δίκτυο, βαθμολογώντας αποτελεσματικά το πόσο επιβλαβής είναι η απάντηση. μια έξοδος που θεωρείται παρόμοια με τα ανθρώπινα «επιβλαβή» δεδομένα θα επηρεάσει αρνητικά την τάση του μοντέλου να παράγει κάτι παρόΑυτό το blog postΜε άλλα λόγια, αυτή η διαδικασία «διδάσκει» το μοντέλο AI να παράγει απαντήσεις όσο το δυνατόν πιο διαφορετικές από τα επιβλαβή δεδομένα που χαρακτηρίζονται από τον άνθρωπο, βελτιώνοντάς τα αποτελεσματικά χωρίς την ανάγκη αναπροσαρμογής.

Αυτό το blog post

The Issue?

Αντίθετα, το μοντέλο RLHF που υποτίθεται ότι καθιστά την τεχνητή νοημοσύνη ασφαλή και καλοήθη εξαρτάται σε μεγάλο βαθμό από εκατοντάδες χιλιάδες υποπληρωμένους εργαζόμενους, οι περισσότεροι από τους οποίους συμβάλλουν σε ανεκτίμητες υπηρεσίες επισήμανσης δεδομένων μέσω ηλεκτρονικών πλατφορμών «cloudwork». Οι περισσότερες από αυτές τις πλατφόρμες ακολουθούν μια μορφή «εγγράφου και εργολάβου», στην οποία πληθώρα εργαζομένων στο διαδίκτυο ανατίθενται σε μία εργασία, λαμβάνοντας αμοιβή μετά την ολοκλήρωση οποιουδήποτε καθήκοντος προβλέπεται, από την επισήμανση του περιεχομένου μιας εικόνας ή βίντεο έως τη σάρωση τοΗ έκθεση Fairwork 2024 του Ινστιτούτου Internet της Οξφόρδηςυπογραμμίζει τις επιχειρηματικές κακές πρακτικές που αντιμετωπίζουν οι εργαζόμενοι από μεγάλες πλατφόρμες επισήμανσης δεδομένων AI στο cloud, όπως η Amazon Mechanical Turk, η Appen και η Remotasks.

Η έκθεση Fairwork 2024 του Ινστιτούτου Internet της Οξφόρδης
  • Καμία από τις αναφερόμενες πλατφόρμες δεν διαθέτει μηχανισμούς ή πολιτικές που εξασφαλίζουν ότι οι εργολάβοι λαμβάνουν πληρωμή από τους αιτούντες για ολοκληρωμένες εργασίες.
  • Μόνο μία από τις αναφερόμενες πλατφόρμες (Appen) έχει πολιτικές που εξασφαλίζουν την QoL των εργαζομένων μέσω της μείωσης της υπερβολικής εργασίας.
  • Καμία από τις αναφερόμενες πλατφόρμες δεν έχει σαφείς και εύκολα ερμηνευμένες συμβάσεις που προβλέπουν όρους πληρωμής και εργασίας.
  • Καμία από τις αναφερόμενες πλατφόρμες δεν έχει δείξει ότι λαμβάνει υπόψη την ανατροφοδότηση των εργολάβων κατά τη λήψη εκτελεστικών αποφάσεων.
  • Μόνο μία από τις αναφερόμενες πλατφόρμες (Appen) έχει πολιτικές που αναγνωρίζουν το δικαίωμα του εργατικού συνεταιρίζεσθαι.

Real People, Real Impact

Η θλιβερή έλλειψη δικαιωμάτων αυτών των εργαζομένων δεδομένων έχει ως αποτέλεσμα τη δημιουργία μιας μη αναγνωρισμένης και υποτιμημένης «υποκατηγορίας» εργαζομένων της τεχνητής νοημοσύνης. Αυτοί οι άνθρωποι, συχνά απελπισμένοι να κερδίσουν λίγο επιπλέον εισόδημα για να στηρίξουν την οικογένειά τους, ξοδεύουν ώρες και ώρες μπροστά στον υπολογιστή τους κάθε μέρα, περνώντας από μικρές και επαναλαμβανόμενες εργασίες επισήμανσης δεδομένων, συχνά έρχονται αντιμέτωποι με τους χειρότερους τρόπους της ανθρώπινης διαφθοράς.Επαναλαμβανόμενες αναφορές για τραυματισμούςμε γραφικές και λεπτομερείς περιγραφές ή απεικονίσεις βιασμού, κακοποίησης, αυτοτραυματισμού και κακοποίησης ζώων, η μαρτυρία όλων των οποίων αποτελεί μέρος του αναμενόμενου καθήκοντος τους, χωρίς καμία επακόλουθη παρακολούθηση ή συμβουλευτική.

Επαναλαμβανόμενες αναφορές για τραυματισμούς

Ως εργολάβοι, οι εργαζόμενοι δεν προστατεύονται από τους νόμους περί μισθών και, σε πολλές περιπτώσεις, δεν πληρώνονται για υπερωρίες. Οι απομακρυσμένες εργασίες θέτουν όριο στον μέγιστο αριθμό ωρών εργασίας για τις οποίες πληρώνεται ένας συμμετέχων και η πλατφόρμα αναθέτει εργασίες μετά από μια μακρά διαδικασία «προσόντων» για την οποία ένας μελλοντικός εργολάβος δεν πληρώνεται.Ελάχιστα λυπημένα– ακόμη και έμπειροι εργαζόμενοι που μπορούν να ολοκληρώσουν αποτελεσματικά εργασίες μερικές φορές αγωνίζονται να κερδίσουν με το διαφημιζόμενο ποσοστό των 10-15 δολαρίων την ώρα, και οι λιγότερο ικανοί συμμετέχοντες πληρώθηκαν ακόμη λιγότερο, σε λιγότερα από 2 δολάρια σε ορισμένες περιπτώσεις. Ακόμη και αν είναι σε θέση να κερδίσουν κάποια χρήματα, οι υπάλληλοι των εργασιών πλήττονται επίσης από την ανεντιμότητα του αιτούντος και τις καθυστερήσεις πληρωμής.Αρνήθηκε να πληρώσειεκατοντάδες ετικέτες δεδομένων τεχνητής νοημοσύνης για το έργο τους – αξίας άνω των 70.000 εργασιών – με την αιτιολογία ότι δεν ήταν ικανοποιητικές.

Ελάχιστα λυπημέναΑρνήθηκε να πληρώσει

Εκατοντάδες χιλιάδες άνθρωποι εργάζονται στην ετικέτα δεδομένων τεχνητής νοημοσύνης καθημερινά, ωστόσο η απογοήτευσή τους συρρικνώνεται τυχαία από την κακή υποστήριξη πελατών και την έλλειψη πλατφόρμας.were generally badΜερικοί εργολάβοι ανέφεραν ακόμη και στο MIT Tech Review ότι η υποστήριξη πελατών μερικές φορέςΑρνήθηκαν να χειριστούν τις αξιώσεις τους για υπερωρίες.

Γενικά ήταν άσχημαΑρνήθηκαν να χειριστούν τις αξιώσεις τους για υπερωρίες

Συμπτωματικά, η Remotasks, μία από τις μεγαλύτερες τέτοιες εταιρείες επισήμανσης δεδομένων AI, είναι μια βασική επιχορήγηση στην Scale AI που παρέχει ετικέτα δεδομένων κατάρτισης ως μέρος των υπηρεσιών κατασκευής AI της εταιρείας. Επίσημα ιδρύθηκε για να "διατηρήσει το απόρρητο των χρηστών", αυτός ο διαχωρισμός προσπαθεί να καλύψει μερικές από τις λιγότερο γευστικές επιχειρηματικές πρακτικές της μεγάλης εταιρείας από το δημόσιο μάτι. στην πραγματικότητα, όταν κάποιος θεωρεί ότι η Remotasks σημείωσε μόνο το 1/10 στην κλίμακα δίκαιης εργασίας της Fairwork, με το 10/10 να είναι η "ελάχιστη απαίτηση για ένα δίκαιο εργασιακό περιβάλλον", υπάρχει σίγουρα πολύ να συζητηθεί για

Αυτό το άρθρο σας φέρνει το Our AI, ένας φοιτητικός και φοιτητικός οργανισμός δεοντολογίας AI που επιδιώκει να διαφοροποιήσει τις προοπτικές στον τομέα της τεχνητής νοημοσύνης πέρα από αυτό που συζητείται συνήθως στα σύγχρονα μέσα.

Αυτό το άρθρο σας φέρνει το Our AI, ένας οργανισμός δεοντολογίας AI που ιδρύθηκε από φοιτητές και διοικείται από φοιτητές και επιδιώκει να διαφοροποιήσει τις προοπτικές στην τεχνητή νοημοσύνη πέρα από αυτό που συζητείται συνήθως στα σύγχρονα μέσα ενημέρωσης.https://www.our-ai.org/ai-nexus/read!

Raise Awareness

Ως ισχυρός υποστηρικτής της ανάπτυξης της ανθρώπινης τεχνητής νοημοσύνης, υποστηρίζω ότι τα τρέχοντα πρότυπα και οι πολιτικές είναι ανεπαρκή για να διασφαλιστεί ότι οι τεχνολογίες μας δεν επηρεάζουν αρνητικά και δόλια την ανθρωπότητά μας.Αν ενδιαφέρεστε αρκετά για την υπεύθυνη και ασφαλή ανάπτυξη της τεχνητής νοημοσύνης, όχι μόνο για την Silicon Valley αλλά για την ανθρωπότητα στο σύνολό της, σας ενθαρρύνω έντονα να ευαισθητοποιήσετε για τις παραβιάσεις των δικαιωμάτων των εργαζομένων στη βιομηχανία τεχνητής νοημοσύνης - είτε μοιράζοντας αυτό το άρθρο είτε κάνοντας τη δική σας έρευνα - και υποστηρίζοντας τις πολιτικές

Ο κόσμος αξίζει να γνωρίζει – και εσείς πρέπει να παίξετε το ρόλο σας.


Συγγραφέας: Thomas Yin

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks