650 ریڈنگز
650 ریڈنگز

بڑے زبانوں کے ماڈلوں کے پیچھے نامعلوم کاروباری استعمال

کی طرف سے Our AI7m2025/06/29
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

featured image - بڑے زبانوں کے ماڈلوں کے پیچھے نامعلوم کاروباری استعمال
Our AI HackerNoon profile picture
0-item

کچھ مہینوں پہلے، 28 سالہ Scale AI CEO، Alexandr Wang نے اپنی کمپنی کے بعد، میٹا، ایمیزون اور مائیکروسافٹ کو شامل کرنے کے لئے ایک بہت کامیاب فنڈنگ راؤنڈ کے بعد،1 ملین ڈالر سے زائد سرمایہ کاری میں اضافہاگرچہ وانگ کی کامیابی کی کہانی dramatic ہے – ایک 19 سالہ MIT چھوڑنے سے دنیا کا سب سے چھوٹا خود تخلیقی ملینار سے – اور اچھی طرح سے رپورٹ کیا گیا ہے، بہت کم بات کی گئی ہے کہ کس طرح اس کی کمپنی، ایک بڑے ڈیٹا لیبلنگ کمپنی، بن گیا ہے. گھنٹے کے تجزیہ کے مطالعہ میں تحقیق اور نسبتا اندھیرے رپورٹنگ کے لئے شکریہ، میں نے زیادہ سے زیادہ کمپنی کی حالیہ تاریخ میں ایک ہی طور پر dramatic twists کی ایک سیریز کے بارے میں آگاہ ہو گیا ہے، جس میں سینکڑوں ہزاروں لوگوں کی کہانیوں اور AI انقلاب کے بعد ہماری دنیا کی آخری ہدایت کے ساتھ مداخلت کرتا ہے. اس مضمون میں، گہری طور پر، ان کو حل کرنے کے لئے عمل کرنا چاہئے.

1 ملین ڈالر سے زائد سرمایہ کاری میں اضافہ

The World of AI Data

تکنیکی کمپنیوں نے تقریبا ان کی پیدائش کے بعد سے ڈیٹا سے فائدہ اٹھایا ہے؛ تاہم، AI ٹولز کی نئی موجودگی نے ڈیٹا کے لئے ایک غیر معمولی نیا مطالبہ کا نتیجہ دیا ہے. اس ضروریات کی وضاحت کرنے کے لئے، ہم ایک پنجرے اور ٹیٹو کی مثال کا استعمال کریں: ایک پلگ ان پنجرے کاغذ پر اپنے آپ کو بیان کرنے کے قابل نہیں ہوسکتا ہے، جیسا کہ ایک پنجرے کے بغیر ایک بوتل کے معاملے میں ہے. اسی طرح، ایک AI پروڈکٹ جیسے ChatGPT، Claude اور Gemini تربیت کے اعداد و شمار اور ایک آرکیٹیکل - عام طور پر ایک ٹرانسفرورر سٹائل ماڈل - جس میں اعداد و شمار کو ایک قابل استعمال شکل میں بیان کرنے کی اجازت دیتا ہے.


جدید بڑے زبان ماڈلنگ کے لئے بہت سے اعداد و شمار کی ضرورت ہے (ChatGPT 4o، ایک مشہور LLM، کے بارے میں اندازہ لگایا جاتا ہے__1.8 ملین پیرامیٹر انٹرویو__)، اور اس طرح عام استعمال AI کمپنیوں نے انسانی تاریخ میں زبان کے اعداد و شمار کے سب سے بڑا کھلی سافٹ ویئر کے لئے تبدیل کر دیا - انٹرنیٹ. ہر ویب سائٹ سے نکالنے والی متن اور تصاویر کے نمونے پر تربیت کے علاوہ، جدید ترین LLMs کو مسلسل زیادہ سے زیادہ ڈیٹا فراہم کیا جاتا ہے.خصوصیات ڈیٹااور سےاپنے صارفین کے ساتھ بات چیتبہتر اعداد و شمار کی غیر متوقع ضرورت نے AI کو تربیت دینے کے لئے استعمال ہونے والی قابل اعتماد معلومات کے لئے ایک پورے مارکیٹ کو ڈرائیونگ کیا ہے، جس میں ہم مستقبل کے مضامین میں تقسیم کریں گے.

خصوصیات ڈیٹااپنے صارفین کے ساتھ بات چیت

Why Humans?

حیرت انگیز طور پر، بڑے ڈیٹا سیٹ میں، جنسی طور پر واضح مواد سے نفرت کی بات کرنے کے لئے گیمٹ چلانے والے مختلف نقصان دہ مواد صحت مند، تعلیمی تربیت کے اعداد و شمار کے ساتھ موازنہ کیا جاتا ہے، جیسا کہ زیادہ سے زیادہ جدید LLM چیٹ بوٹس کو تربیت دینے کے لئے استعمال ہونے والے انٹرنیٹ اعداد و شمار کے بیس سیٹ کے معاملے میں تھا.تربیت کے اعداد و شمار کے terabytes)، زیادہ تر AI کمپنیوں کو ان ضمنی اثرات کو پتہ لگانے اور درست کرنے کے لئے اقدامات کا استعمال کرتے ہیں. انسانی جائزہ لینے کے استعمال اور ماڈل کی پیمائش کو برقرار رکھنے کے درمیان ایک تبادلہ خیال کرنے کے لئے، AI کمپنیوں نے انسانی پیغامات سے Reinforcement Learning (RLHF) ماڈل کا استعمال کیا: بنیادی طور پر، انسانی کارکنوں کو ممکنہ طور پر نقصان دہ ڈیٹا لیبل اور درجہ بندی کریں گے، جس کو پھر تربیت کے اعداد و شمار کے مواد کے مطابق ماڈل کو ایڈجسٹ کرنے کے لئے ایک بحالی سیکنڈ کے ذریعے کھایا جاتا ہے.

تربیت کے اعداد و شمار کے terabytes

تکنیکی طور پر، RLHF معیاری مشین سیکھنے Reinforcement Learning الگورتھمز سے مختلف نہیں ہے: ایک گہری نیٹ ورک کو حقیقی، انسان کے لیبل کردہ اعداد و شمار پر مبنی AI سے پیدا ہونے والے جواب کے لئے ایک پوائنٹ کا تعین کرنے کے لئے استعمال کیا جاتا ہے، جبکہ AI کو بار بار ان جوابات کو پیدا کرنے کے لئے بنایا جاتا ہے جو اس گہری نیٹ ورک میں کھایا جاتا ہے، اس کے نتیجے میں اس کا اثر انداز کیا جاتا ہے کہ جواب کتنا نقصان دہ ہے.یہ بلاگ پوسٹدوسرے الفاظ میں، یہ عمل AI ماڈل کو انسانوں کی طرف سے لیبل شدہ نقصان دہ ڈیٹا کے طور پر ممکنہ طور پر غیر متوقع جوابات پیدا کرنے کے لئے "تدریس" کرتا ہے، مؤثر طریقے سے اسے دوبارہ تربیت کرنے کی ضرورت نہیں ہے.

یہ بلاگ پوسٹ

The Issue?

اس کے بجائے، RLHF ماڈل جس کا کہنا ہے کہ AI کو محفوظ اور منفی بناتا ہے، بہت سے ہزاروں کم ادائیگی کرنے والے کارکنوں پر منحصر ہے، جن میں سے اکثر آن لائن "کوئی" پلیٹ فارمز کے ذریعہ غیر قابل قدر ڈیٹا لیبلنگ خدمات فراہم کرتے ہیں. ان میں سے زیادہ تر پلیٹ فارمز "ایک درخواست اور کارخانہ دار" فارمیٹ کی پیروی کرتے ہیں، جس میں بہت سے آن لائن کارکنوں کو ایک کام پر قبضہ کیا جاتا ہے، جو کام کے اختتام پر ادا کیا جاتا ہے، تصاویر یا ویڈیوز کے مواد کو لیبل کرنے سے ممکنہ کلیدی الفاظ یا کنکشنوں کے لئے متن کے دیواروں کو چیک کرنے کے لئے. ان کارکنوں کو ہم جانتے ہیں کہ AI کی حفاظت کے لئے غیر قابل قدر مددگار ہیں - یہ اس وجہ سے ہے کہ عام طورآکسفورڈ انٹرنیٹ انسٹی ٹیوٹ کی رپورٹ 2024 Fairwork Reportبڑے اعداد و شمار کے لیبلنگ پلیٹ فارمز جیسے ایمیزون میکانیل ٹارک، ایپن، اور ریموٹاسکس کی طرف سے کاروباری غلطیوں کو ظاہر کرتا ہے.

آکسفورڈ انٹرنیٹ انسٹی ٹیوٹ کی رپورٹ 2024 Fairwork Report
  • ذکر کردہ پلیٹ فارمز میں سے کوئی بھی ایسے میکانیزم یا پالیسی نہیں ہے جو اس بات کو یقینی بناتا ہے کہ کارخانہ داروں کو مکمل ہونے والے کاموں کے لئے درخواست کرنے والوں سے ادائیگی حاصل ہوتی ہے.
  • ذکر کردہ پلیٹ فارموں میں سے صرف ایک (آپن) کی پالیسی ہے جو زیادہ سے زیادہ کام کو کم کرنے کے ذریعہ کاروباری QoL کو یقینی بناتا ہے.
  • ذکر کردہ پلیٹ فارمز میں سے کوئی بھی واضح اور آسانی سے تفسیر کردہ معاہدے نہیں رکھتا ہے جو ادائیگی اور کام کی شرائط کو مقرر کرتا ہے.
  • ذکر کردہ پلیٹ فارمز میں سے کوئی بھی اس بات کا ثبوت نہیں دے رہا ہے کہ وہ انتظامی فیصلے کرنے میں کارخانہ داروں کی واپسی کا استعمال کرتے ہیں.
  • ذکر کردہ پلیٹ فارموں میں سے صرف ایک (آپن) کی پالیسییں ہیں جو کارکنوں کو جمع کرنے کے حق کو تسلیم کرتی ہیں.

Real People, Real Impact

ان ڈیٹا کاروباریوں کے حقوق کی غریب کمی کے نتیجے میں AI کاروباریوں کی ایک غیر شناختی اور کم از کم تعریف شدہ "ڈاکٹر" کی تخلیق ہوتی ہے. یہ لوگ، اکثر اپنے خاندان کی حمایت کرنے کے لئے تھوڑا سا اضافی آمدنی حاصل کرنے کے لئے مایوس ہوتے ہیں، ہر دن اپنے کمپیوٹر کے سامنے گھنٹوں خرچ کرتے ہیں، ڈیٹا لیبلنگ کے منفی اور تکرار کرنے والے کاموں کے ذریعے جاتے ہیں، اکثر انسانی فساد کے بدترین طریقوں کا سامنا کرتے ہیں۔ ان پلیٹ فارمز پر کام کرنے والےبار بار traumatised ہونے کی رپورٹگرافک اور تفصیلی وضاحتوں یا ریپنگ، بدبخت، خودکشی، اور جانوروں کی ہراساں کی وضاحتیں، جن میں سے سب کی گواہی ان کی توقعات کا حصہ ہے، اس کے بعد کوئی پیروی یا مشورہ نہیں.

بار بار traumatised ہونے کی رپورٹ

کارخانہ داروں کے طور پر، کارکنوں کو ملازمت کے قوانین کی حفاظت نہیں ہے، اور، بہت سے صورتوں میں، اضافی وقت کے لئے ادائیگی نہیں کی جاتی ہے. ریموٹ کام ایک شراکت دار کے لئے ادا کیا جاتا ہے کے لئے کام کی زیادہ سے زیادہ گھنٹے کی تعداد پر ایک حد ڈالتا ہے، اور پلیٹ فارم ایک طویل "معیار" عمل کے عمل کے بعد کاموں کا تعین کرتا ہے جس کے لئے ممکنہ کارخانہ دار کو ادائیگی نہیں کی جاتی ہے.تھوڑا تھوڑا– یہاں تک کہ تجربہ کار کارکنوں کو کاموں کو مؤثر طریقے سے مکمل کرنے کے قابل، کبھی کبھی 10 سے 15 ڈالر فی گھنٹہ کی اشتہارات کی شرح کے ساتھ حاصل کرنے کے لئے لڑتے ہیں، اور کم سے کم کامیاب شرکاء کو بھی کم ادائیگی کی گئی تھی، کچھ صورتوں میں 2 ڈالر سے کم. یہاں تک کہ اگر وہ کچھ پیسہ کمانے کے قابل ہیں تو، کام کرنے والوں کو بھی درخواست دینے والے کی بے انصافی اور ادائیگی کی تاخیر سے متاثر ہوتا ہے.ادائیگی سے انکاران کے کام کے لئے سینکڑوں AI ڈیٹا لیبلرز - 70،000 سے زائد کاموں کی قیمت - اس وجہ سے کہ وہ ناپسندیدہ تھے.

تھوڑا تھوڑاادائیگی سے انکار

سینکڑوں ہزار لوگ روزانہ AI ڈیٹا لیبلنگ میں کام کرتے ہیں، لیکن ان کی ناکامی کو کمزور گاہک سپورٹ اور ایک پلیٹ فارم کی کمی کی وجہ سے کمزور کیا جاتا ہے.عام طور پر برا تھاکچھ کام کرنے والے نے بھی MIT Tech Review کو بتایا کہ کسٹمر سپورٹ کبھی کبھیان کی ادائیگی کے بارے میں مطالبہ کرنے سے انکار.

عام طور پر برا تھاان کی ادائیگی کے بارے میں مطالبہ کرنے سے انکار

مثال کے طور پر، Remotasks، اس طرح کی سب سے بڑی AI ڈیٹا لیبلنگ کمپنیوں میں سے ایک ہے، اس کمپنی کی AI کی تعمیر کی خدمات کے حصے کے طور پر لیبلنگ تربیت کے اعداد و شمار فراہم کرنے کے لئے سکرل AI میں ایک اہم سپورٹ ہے. سرکاری طور پر "صارف کی رازداری کو برقرار رکھنے" کے لئے قائم کیا گیا ہے، یہ جدوجہد عوامی آنکھوں سے بڑی کمپنی کے کچھ کم خوشی والے کاروباری طریقوں کو چھپانے کی کوشش کرتا ہے؛ حقیقت میں، جب ایک خیال کرتا ہے کہ Remotasks نے فیئرورورک کے مناسب کام کے پیمانے پر صرف ایک 10 / 10 حاصل کیا، جس میں 10 / 10 "صرف کام کے ماحول کے لئے کم از کم مطالبہ" ہے، تو اس کے بارے میں بہت کچھ بحث کی جا سکتی ہے کہ اسکرل نے اپنے سخت کام کے ذریعے AI مصنوعات

یہ مضمون آپ کو ہمارے AI کی طرف سے لایا گیا ہے، ایک طالب علم کی بنیاد پر اور طالب علم کی طرف سے ہدایت کی AI اخلاقیاتی تنظیم جس میں AI میں نقطہ نظر کو جدید میڈیا میں عام طور پر بحث کیا جاتا ہے کے علاوہ مختلف کرنے کی کوشش کرتا ہے. اگر آپ اس مضمون کو پسند کرتے ہیں تو، براہ مہربانی ہمارے ماہانہ دستاویزات اور انفرادی مضامین کو چیک کریں https://www.our-ai.org/ai-nexus/read!

یہ مضمون آپ کو ہمارے AI کی طرف سے لایا گیا ہے، ایک طالب علم کی بنیاد پر اور طالب علم کی بنیاد پر AI اخلاقیاتی تنظیم جو AI میں نقطہ نظر کو جدید میڈیا میں عام طور پر بحث کیا جاتا ہے کے علاوہ مختلف کرنے کی کوشش کرتی ہے.https://www.our-ai.org/ai-nexus/read!

Raise Awareness

RLHF ایک اچھا کام ہے جو تمام غلط طریقوں پر کیا گیا ہے. انسانی طور پر منسلک AI کی ترقی کے ایک مضبوط حامی کے طور پر، میں اس بات کا اظہار کرتا ہوں کہ موجودہ معیار اور پالیسی اس بات کو یقینی بنانے کے لئے کافی نہیں ہیں کہ ہماری ٹیکنالوجی ہمارے انسانیت کو منفی اور ناپسندیدہ طور پر متاثر نہیں کرتی ہے. اگر آپ ذہنی طور پر AI کی ذمہ دار اور محفوظ ترقی کے بارے میں کافی پرواہ کرتے ہیں، نہ صرف سلیکون ڈیلے کے لئے بلکہ پوری انسانیت کے لئے، میں آپ کو ذہنی طور پر صنعت میں کارکنوں کے حقوق کی خلاف ورزی کے بارے میں آگاہی کو فروغ دینے کے لئے حوصلہ افزائی کرتا ہوں - اس مضمون کا اشتراک کرتے ہوئے یا آپ کے اپنے تحقیق کا کام کرتے ہوئے - اور پالیسی کے فیصلوں کی حمایت کرتے ہیں جو کارکنوں کو ایک انصافی ادائیگی

دنیا جاننے کے قابل ہے - اور آپ کو آپ کا حصہ ہونا چاہئے.


کی طرف سے لکھا: Thomas Yin

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks