641 測定値
641 測定値

The Untold Worker Exploitation Behind Large Language Models(大規模言語モデル)

Our AI7m2025/06/29
Read on Terminal Reader

長すぎる; 読むには

featured image - The Untold Worker Exploitation Behind Large Language Models(大規模言語モデル)
Our AI HackerNoon profile picture
0-item

数ヶ月前、28歳のスケールAICEOのアレクサンドル・ワンは、Meta、Amazon、Microsoftを含む非常に成功した資金調達ラウンドの後、彼の会社の後でタイトルを作った。ベンチャー資本で10億ドル以上を調達ワン氏の成功物語は劇的であるにもかかわらず、19歳のMIT退社から世界最年少の自家製の億万長者に至るまで、そしてよく報道されているが、大規模なデータラベル化会社である彼の会社がどのように成り立ったかについては、あまりにも多くが語られていない。インストラクティブ研究や比較的曖昧なレポートへの数時間の研究のおかげで、私は、同社の最近の歴史の中で、数十万人の人々の物語とAI革命の後で私たちの世界の究極の運命を交わす一連の同様に劇的な転換をますます意識しつつある。この記事は、AIデータラベル化のオウトソーシングにおける人間の発明性に関する私の発見と知識を深く説明し、社会全体

ベンチャー資本で10億ドル以上を調達

The World of AI Data

テクノロジー企業は、ほぼ創業以来、データから利益を得ているが、AIツールの新たな普及は、これまでにない新たなデータ需要を生み出している。この要件を説明するには、ペンとインクの類似性を用いてみましょう:インクレスペンは、ペンがない場合のインクのボトルと同様に、紙で表現することができない。


現代の大言語モデルを訓練するために大量のデータが必要です(ChatGPT 4o、著名なLLMは、約__を持つと推定されています。1.8億パラメーター入力__) そして、一般的なAI企業は、人間の歴史における言語データの最大のオープンソースリポジトリ - インターネット - に転換し、考えられるすべてのウェブサイトから抽出されたテキストと画像のサンプルに訓練されることに加えて、最先端のLLMsは絶えずより多くのデータを提供しています。データ所有者and from からユーザーとの会話より良いデータの絶え間ない必要性は、AIの訓練に使用される信頼性の高い情報の市場全体を推し進めているが、これ自体は将来の記事で解き明かすべき苦しい倫理的困難である。

データ所有者ユーザーとの会話

Why Humans?

驚くべきことに、大規模なデータセットでは、性的に明確な素材から憎しみのスピーチまで幅広い範囲を走る有害なコンテンツが、ほとんどの近代的なLLMチャットボットを訓練するために使用されたインターネットデータのサブセットと同様に、健康的な教育訓練データと並んでいます。トレーニングデータのテラバイト人間のレビューとモデルのスケーラビリティを維持する間の妥協を打つために、AI企業は人間のフィードバックからの強化学習(RLHF)モデルを採用しました:本質的に、人間の労働者は潜在的に有害なデータをラベル化し、分類し、その後、トレーニングデータのコンテンツに従ってモデルを調整するための強化学習シーケンスを通じて供給されます。

トレーニングデータのテラバイト

技術的に言えば、RLHFは標準的な機械学習強化学習アルゴリズムとは異なりません:深いネットワークは、実際の、ヒューマンレーベルデータに基づいてAI生成された応答にスコアを割り当てるために使用され、AIは繰り返し、その後、この深いネットワークに送信される応答を生成するように作られ、効果的にその応答の有害性に基づいて分類されます。このブログ記事言い換えれば、このプロセスはAIモデルに、人間がラベル化した有害なデータとできるだけ異なる反応を生成するように「教える」のであり、リトレーニングする必要がなく効果的に調整します。

このブログ記事

The Issue?

代わりに、AIを安全かつ良性にしたとされるRLHFモデルは、数十万人の未払い労働者に大きく依存しており、そのほとんどがオンラインの「クラウドワーク」プラットフォームを通じて貴重なデータラベルサービスを貢献している。これらのプラットフォームのほとんどは、「リクエストと契約者」形式に従い、オンライン労働者の大勢が1つのタスクに割り当てられ、タスクが定められたものの完了時に、画像やビデオのコンテンツのラベル化から、可能なキーワードや文脈のためのテキスト壁をスルーするまで、報酬を受け取る。これらの労働者は、私たちが知っているようにAIの安全性に貴重な貢献者である - なぜ公にリリースされたAIは、インターネットの偶然的なオックスフォードインターネット研究所(Oxford Internet Institute)の「2024 Fairwork Report」Amazon Mechanical Turk、Appen、Remotasksなどの大規模なクラウドAIデータラベル化プラットフォームが従業員に与えたビジネス悪用を強調しています。

オックスフォードインターネット研究所(Oxford Internet Institute)の「2024 Fairwork Report」
  • 上記のプラットフォームのいずれも、サプライヤーが完了したタスクの請求者から支払いを受けることを保証するメカニズムやポリシーを持っていません。
  • 上記のプラットフォーム(Appen)の1つだけが、過労を軽減することによって従業員のQoLを確保するポリシーを持っています。
  • 上記のプラットフォームのいずれも、支払いと仕事の条件を規定する明確かつ容易に解釈された契約を持っていません。
  • 上記のプラットフォームのいずれも、実行決定に従事者からのフィードバックを取ることを示していない。
  • 上記のプラットフォームの1つだけ(Appen)は、労働者結社の権利(組合化)を認めるポリシーを持っています。

Real People, Real Impact

これらのデータワーカーの権利の欠如は、AI労働者の未認識で過小評価された「サブクラス」の創出につながります。これらの人々は、しばしば家族を支えるために余分な収入を得るために絶望的に、毎日何時間もコンピュータの前で過ごし、データラベル化の微妙で繰り返しのタスクを経て、しばしば人間の堕落の最悪のやり方に直面しています。repeatedly reported being traumatizedレイプ、自傷、動物虐待のグラフィック的かつ詳細な記述または描写によって、それらのすべての証言は彼らの期待される義務の一部であり、その後のフォローアップやアドバイスなし。

何度もトラウマを受けたと報じた。

サプライヤーとして、従業員は賃金法によって保護されず、多くの場合、過労労働のための報酬を受けません。リモートタスクは、参加者が支払われる労働時間の最大数に制限を設定し、プラットフォームは、将来のタスク担当者が支払われない長い「資格化」プロセス後にタスクを割り当てます。契約は悪く、しばしば曖昧に書かれており、多くの従業員の虐待が目に留まらないようにすることができます。可哀想に少々作業を効率的に完了できる経験豊富な従業員でさえ、時々1時間あたり10~15ドルで稼ぐために苦労することもあり、不十分な参加者は、いくつかのケースでは2ドル未満で支払われたこともあります。たとえ彼らがお金を稼ぐことができても、タスク担当者は、リクエスト者の不誠実さと支払いの遅延に苦しんでいます。支払いを拒否70,000 件を超えるタスクの価値を誇る数百人のAI データラベラーが、それらが不十分であるという理由で、彼らの仕事に貢献しました。

可哀想に少々支払いを拒否

何十万人もの人々が日々AIデータラベル化に取り組んでいますが、彼らの不満は、不十分な顧客サポートとプラットフォームの欠如によって巧妙に抑えられています。一般的に悪かった一部のタスクメーカーは、MIT Tech Reviewに、顧客サポートが時には過払いに対する請求を拒否した。.

一般的に悪かった過払いに対する請求を拒否した。

たまたま、Remotasksは、AIデータラベル化の最大の企業の1つであり、Scale AIの主要な補助金で、同社のAIビルディングサービスの一環としてラベル化されたトレーニングデータを提供しています。公式に「ユーザーの機密性を守る」ために設立されたこの分離は、大企業の不味わいなビジネス慣行のいくつかを一般の目から隠そうとします。実際、Remotasksがフェアウォークの公正な仕事のスケールで10分の1しか得ていないと考えると、10分の10が「公正な作業環境のための最低要件」であると見なされます。

この記事は、学生が設立し、学生が率いるAI倫理団体であるOur AIが、現代のメディアで一般的に議論されているものを超えてAIの視点を多様化することを目指しています。

この記事は、学生が設立し、学生が率いるAI倫理団体であるOur AIが、現代のメディアで一般的に議論されているものを超えてAIの視点を多様化することを目指しています。

Raise Awareness

RLHFはすべての間違った方法で行った良いことである。人間に合わせたAI開発の強力な支持者として、現在の基準と政策は、我々の技術が我々の人類に悪影響を及ぼさないことを確保するのに不十分であると主張します。もしあなたが、シリコンバレーだけでなく、人類全体にとって、AIの責任ある安全な開発を十分に気にしているなら、AI業界における労働者権利の侵害に関する意識を広げることを強く奨励します。

世界は知るに値する - そしてあなたはあなたの役割を果たすべきです。


Written by Thomas Yin

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks