650 lecturas
650 lecturas

La explotación inexplicable de los trabajadores detrás de los grandes modelos lingüísticos

por Our AI7m2025/06/29
Read on Terminal Reader

Demasiado Largo; Para Leer

featured image - La explotación inexplicable de los trabajadores detrás de los grandes modelos lingüísticos
Our AI HackerNoon profile picture
0-item

Hace unos meses, el CEO de Scale AI, Alexandr Wang, de 28 años, hizo headlines después de su compañía, después de una ronda de financiación de éxito involucrando a Meta, Amazon y Microsoft.Más de mil millones de dólares en capital de riesgoAunque la historia de éxito de Wang es dramática –desde un abandono en el MIT de 19 años hasta el multimillonario más joven del mundo – y bien informado, mucho menos se ha contado sobre cómo su empresa, una empresa de etiquetado de datos masivo, se convirtió en.Gracias a horas de investigación en estudios institucionales y reportes relativamente obscuros, me he vuelto cada vez más consciente de una serie de giros igualmente dramáticos en la historia reciente de la compañía, uno que entrelaza las historias de cientos de miles de personas y el destino final de nuestro mundo a raíz de la revolución de la IA. Este artículo explica, en profundidad, mis descubrimientos y conocimientos sobre las travesías de la ingenuidad humana omnipresentes en el outsourcing de datos de la IA y cómo la sociedad, en su conjunto, debe

Más de mil millones de dólares en capital de riesgo

The World of AI Data

Para explicar este requisito, empleemos la analogía de una pluma y tinta: una pluma incrustada no sería capaz de expresarse en papel, como es el caso con una botella de tinta con la ausencia de una pluma.Asimismo, un producto de IA como ChatGPT, Claude y Gemini es la cuidadosa combinación de datos de entrenamiento y una arquitectura – generalmente un modelo de estilo Transformer – que permite la expresión de los datos en una forma usable.Excluyendo las formalidades matemáticas y programáticas por motivos de accesibilidad, el proceso en el que un programa es capaz de producir una salida única basada en los datos de entrenamiento en el contexto de una entrada, generalmente una solicitud o una pregunta.


Una gran cantidad de datos es necesaria para entrenar modelos modernos de grandes lenguas (ChatGPT 4o, un prominente LLM, se estima que tiene sobre__1.8 mil millones de entradas de parámetros__), y por lo tanto las empresas de uso general de IA se convirtieron en el mayor repositorio de código abierto de datos lingüísticos en la historia humana - Internet. Además de ser capacitados en muestras de texto e imágenes extraídas de cada sitio web imaginable, los LLM de última generación están constantemente siendo alimentados con más datos deDatos Propietariosy deConversaciones con sus usuariosLa necesidad inquebrantable de mejores datos impulsa un mercado entero de información confiable utilizada para entrenar a la IA, un dilema ético amargo que romperemos en futuros artículos.

Datos PropietariosConversaciones con sus usuarios

Why Humans?

No es de extrañar que en los grandes conjuntos de datos, una variedad de contenidos dañinos que van desde el material sexualmente explícito hasta el discurso de odio se juntan con datos educativos saludables, como ocurrió con el subconjunto de datos de Internet utilizado para entrenar a la mayoría de los chatbots LLM modernos.Terabytes de datos de entrenamientoPara alcanzar un compromiso entre el uso de la revisión humana y la preservación de la escalabilidad del modelo, las empresas de IA adoptaron el modelo Reinforcement Learning from Human Feedback (RLHF): esencialmente, los trabajadores humanos etiquetarían y clasificarían datos potencialmente dañinos, que luego se alimentan a través de una secuencia de aprendizaje de refuerzo para ajustar el modelo de acuerdo con el contenido de los datos de formación.

Terabytes de datos de entrenamiento

En términos técnicos, RLHF no es diferente de los algoritmos estándar de aprendizaje reforzado por máquina: una red profunda se emplea para asignar una puntuación a una respuesta generada por IA basada en datos reales, etiquetados por humanos, mientras que la IA se hace repetidamente para generar respuestas que luego se alimentan en esta red profunda, clasificándola de manera efectiva en cuanto perjudicial sea la respuesta. una salida considerada similar a los datos “perniciosos” etiquetados por humanos tendrá un impacto negativo en la tendencia del modelo a generar algo similar en el futuro, mientras que una salida considerada diferente a los datos antes mencionados le dará al modelo una propensión para generar tales respuestas cuando se promueve en condiciones similares (Si usted está interesado, recomiendo altamente comprobarlo).Este blog postexplicando los detalles pseudo-técnicos relativos al uso de RLHF en los LLM modernos).En otras palabras, este proceso “enseña” al modelo de IA para producir respuestas tan diferentes como sea posible a los datos dañinos etiquetados por el hombre, ajustándolos de manera efectiva sin necesidad de retraer.

Este blog post

The Issue?

En cambio, el modelo RLHF que supuestamente hace que la IA sea segura y benigna depende en gran medida de cientos de miles de trabajadores subpagados, la mayoría de los cuales contribuyen a servicios de etiquetado de datos inestimables a través de plataformas en línea “cloudwork”. La mayoría de estas plataformas siguen un formato “requerente y contratista”, en el que multitudes de trabajadores en línea se asignan a una tarea, recibiendo una remuneración al finalizar lo que la tarea estipule, desde etiquetar el contenido de una imagen o vídeo hasta rastrear paredes de texto para posibles palabras clave o contextos. Estos trabajadores son contribuyentes inestimables a la seguridad de la IA como la conocemos – la razón por la cual se sabe que la IA publicada públicamente es una fuente de informaciónEl informe Fairwork 2024 del Instituto de Internet de OxfordDestaca las malas prácticas empresariales tomadas sobre los trabajadores por las grandes plataformas de etiquetado de datos de IA en la nube como Amazon Mechanical Turk, Appen y Remotasks.

El informe Fairwork 2024 del Instituto de Internet de Oxford
  • Ninguna de las plataformas mencionadas tiene mecanismos o políticas que aseguren que los contratistas reciban pago de los solicitantes por las tareas completadas.
  • Sólo una de las plataformas mencionadas (Appen) tiene políticas que garantizan el QoL de los trabajadores al mitigar el trabajo excesivo.
  • Ninguna de las plataformas mencionadas tiene contratos claros y fácilmente interpretados que estipulen condiciones para el pago y el trabajo.
  • Ninguna de las plataformas mencionadas ha demostrado que tengan en cuenta el feedback de los contratistas en la toma de decisiones ejecutivas.
  • Sólo una de las plataformas mencionadas (Appen) tiene políticas que reconocen el derecho de asociación de los trabajadores (unificación).

Real People, Real Impact

La asombrosa falta de derechos de estos trabajadores de datos tiene como resultado la creación de una "subclase" de trabajadores de IA no reconocida y subestimada.Estas personas, a menudo desesperadas por ganar un poco de ingresos adicionales para apoyar a su familia, pasan horas y horas delante de su ordenador todos los días, pasando por tareas mentais y repetitivas de etiquetado de datos, a menudo encontrándose con las peores maneras de depravación humana.Siempre ha sido traumatizadopor descripciones o representaciones gráficas y detalladas de violación, maltrato, autolesión y abuso animal, cuyo testimonio es parte de su deber esperado, sin seguimiento ni asesoramiento posteriores.

Siempre ha sido traumatizado

Como contratistas, los trabajadores no están protegidos por las leyes salariales y, en muchos casos, no son pagados por trabajos extraordinarios. Las tareas remotas sitúan un límite en el número máximo de horas de trabajo por las que se paga a un participante, y la plataforma asigna tareas después de un largo proceso de "cualificación" por el que no se paga a un potencial contratista. Los contratos están mal escritos y a menudo ambiguos, permitiendo que muchos malos tratos de los trabajadores pasen desapercibidos.Desgraciadamente poco– Incluso los trabajadores experimentados capaces de completar tareas de manera eficiente a veces luchan por ganar a la tasa anunciada de $ 10-15 por hora, y los participantes menos capaces fueron pagados aún menos, a menos de $ 2 en algunos casos. Incluso si son capaces de ganar algo de dinero, los encargados de tareas también están atormentados por la deshonestidad del solicitante y los retrasos en el pago.Se niega a pagarcientos de etiquetadores de datos de IA por su trabajo -más de 70.000 tareas- por el motivo de que eran insatisfactorios.

Desgraciadamente pocoSe niega a pagar

Cientos de miles de personas trabajan en el etiquetado de datos de IA todos los días, pero su frustración es accidentalmente aplastada por el mal soporte al cliente y la falta de una plataforma.Generalmente eran malos; algunos trabajadores incluso informaron a MIT Tech Review que el soporte al cliente a vecesSe negaron a responder a sus reclamaciones de retraso salarial.

Generalmente eran malosSe negaron a responder a sus reclamaciones de retraso salarial

Por coincidencia, Remotasks, una de las mayores firmas de etiquetado de datos de IA, es una subvención clave en Scale AI que proporciona datos de formación etiquetados como parte de los servicios de construcción de IA de la compañía. Oficialmente establecido para “preservar la confidencialidad del usuario”, esta separación intenta ocultar algunas de las prácticas comerciales menos gustativas de la gran empresa del ojo público; de hecho, cuando uno considera que Remotasks solo obtuvo un 1/10 en la escala de trabajo equitativo de Fairwork, con un 10/10 siendo el “requisito mínimo para un entorno de trabajo justo”, hay ciertamente mucho que discutir sobre el maltrato de Scale de los mismos trabajadores que apoyan los productos de IA a través de su trabajo duro.

Este artículo es traído a usted por Nuestro AI, una organización de ética de IA fundada por estudiantes y liderada por estudiantes que busca diversificar perspectivas en IA más allá de lo que se discute típicamente en los medios modernos. Si te gusta este artículo, por favor revisa nuestras publicaciones mensuales y artículos exclusivos en https://www.our-ai.org/ai-nexus/read!

Este artículo es traído a usted por Nuestra IA, una organización de ética de IA fundada por estudiantes y liderada por estudiantes que busca diversificar perspectivas en IA más allá de lo que se discute típicamente en los medios modernos.https://www.our-ai.org/ai-nexus/read!

Raise Awareness

Como un fuerte defensor del desarrollo de la IA alineada con el hombre, afirmo que las normas y políticas actuales son insuficientes para garantizar que nuestras tecnologías no afecten negativamente y de manera falsa a nuestra humanidad.Si usted se preocupa lo suficiente por el desarrollo responsable y seguro de la IA, no solo para el Valle del Silicon sino para la humanidad en su conjunto, le alento fuertemente a difundir la conciencia de las violaciones de los derechos de los trabajadores en la industria de la IA - ya sea a través de compartir este artículo o hacer su propia investigación - y apoyar las decisiones políticas que protegen el derecho de los trabajadores a un salario justo y representación en el lugar de trabajo.

El mundo merece saber - y usted debe jugar su parte.


Escrito por Thomas Yin

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks