LoRA تعلم أقل وأخفى أقل - هل هذا خطأ أو ميزة؟

تعتبر LoRA طريقة التقييم المستدامة التي تستخدم بشكل واسع في نموذج اللغات الكبيرة. LoRA تخزين الذاكرة عن طريق تدريب تقييمات منخفضة إلى مكونات الوزن المختارة فقط. في هذه العملية، نحن نتقارن مع أداء LoRA ومتقييم كامل على مدخلين هدفين، برنامج ومعدلات. نحن نعتبر كل من التقييم المستدام (≈100K جوازات الاستجابة المستقبلية) والتقييم المستمر (≈10B تقييمات غير هيكلية) نظامات البيانات. أظهرت النتائج لدينا أن في معظم الإعدادات، LoRA يقلل بشكل كبير من أداء التقييم المستدام. ومع ذلك، LoRA يظهر نموذج التقييم المستدامة المطلوب: إنه يحافظ بشكل أفضل على أداء

1 إدراج

تقييم نموذج اللغة الكبيرة (LLMs) مع مليارات الخصائص يتطلب كميات غير نادرة من الذاكرة GPU. تقييم التقييم الأساسي المستدام يقلل من أسطوانة الذاكرة أثناء التدريب عن طريق الحد من LLM المعدل قبل التدريب وتدريب فقط عدد صغير من النماذج الإضافية، غالبا ما تسمى التكيفات. التكيف السلبي (LoRA؛ Hu et al. (2021)) تدريب التكيفات التي هي التهابات منخفضة في مادة الوزن المختارة.

منذ تأسيسها، تم عرض LoRA كحسن التكلفة الصارم الذي لا يؤثر على دقة على المجال الأهداف الجديد (Hu et al., 2021; Dettmers et al., 2024; Raschka, 2023; Zhao et al., 2024b). ومع ذلك، إلا أن بعض الدراسات تعتمد على النماذج القديمة (على سبيل المثال، RoBERTa) أو النماذج التقييمية العميقة (على سبيل المثال، GLUE أو ROUGE) التي لا تختلف عن النماذج المعاصرة. بدلاً من ذلك، تُظهر تقييمات التخصصات المجال الأكثر حساسية، على سبيل المثال، الكمبيوتر، الحالات التي تتفاوت فيها LoRA عن النماذج الكاملة (على سبيل المثال، Ivison etHere we ask: under which conditions does LoRA approximate full finetuning accuracy on challenging target domains, such as code and math?

من خلال تدريب الأقسام الأقل ، يفترض أن LoRA يوفر شكل من أشكال التعديل الذي يحد من سلوك النماذج المتكاملة لتبقى قريبة من النماذج الأساسية (Sun et al., 2023; Du et al., 2024).We also ask: does LoRA act as a regularizer that mitigates “forgetting” of the source domain?

في هذه الدراسة، ونحن مقارنة بشكل صارم بين LoRA و finetuning الكامل لLlama-2 7B (وفي بعض الحالات، 13B) نموذجًا على كلا الجوانب الضرورية، الكود والرياضيات. في كل مجال، ونحن نستكشف دو نظام تدريب. الأول هو تدريب finetuning، السيناريو المشترك ل LoRA يتضمن مجموعة بيانات سؤال وجواب مع عشرات إلى مئات الملايين من القذائف. هنا، نحن نستخدم Magicoder-Evol-Instruct-110K (Wei et al., 2023) و MetaMathQA (Yu et al., 2023). ويواصل النظام الثاني تدريبًا متكررًا، وتتضمن تطبيقًا أقل شيوعًا لLoRA تدريبًا على مليارات من

ونحن نقيس أداء المجال الأساسية (بعد ذلك، التعلم) من خلال التحديات الكمبيوترية والنماذج الرياضية (HumanEval; Chen et al. (2021)، وGSM8K; Cobbe et al. (2021)). ونقيس أداء المجال الأساسية على فهم اللغات، والخبرة في العالم، والمهام التفكير العقلاني (Zellers et al., 2019; Sakaguchi et al., 2019; Clark et al., 2018).

ونحن نلاحظ أن LoRA يتجاوز بشكل كبير الأداء الكامل للكود، في حين أن LoRA يتجاوز الأداء الكامل للكود (الجزء 4.1)، في حين يتطلب تدريبًا أطول. على الرغم من هذه الفجوة في الأداء، ونشير إلى أن LoRA يتحمل أداء الأداء الكامل للكود بشكل أفضل مقارنة بالكود الكامل (الجزء 4.2). وبالإضافة إلى ذلك، نرى أننا نميز التوازن بين الأداء على الهدف المناسب للكود (العلم المناسب للتخفيف). لعدد من النماذج والبيانات المحددة، ونحن نجد أن LoRA وFineTuning الكامل تشكل صيغة التوازن مشابهة للتعلم والتخفيف (الجزء 4.3).

ثم أظهرت أن LoRA - حتى مع مستوى أقل قيودًا - يوفر استنتاجًا قويًا مقارنة مع طرق استنتاج الكلاسيكية الكلاسيكية مثل droppout (Srivastava et al., 2014) ، وتدهور الوزن (Goodfellow et al., 2016).

لماذا يقلل LoRA من أداء التقييم الكامل؟ أدى LoRA في الأصل على أساس جزئي من التقديرات أن التقييم الكامل يؤدي إلى اختلالات منخفضة في مادة الوزن في النماذج الأساسية (Li et al., 2018; Aghajanyan et al., 2020; Hu et al., 2021). ومع ذلك، فإن المهام التي تكتنفها هذه الأعمال سهلة نسبياً بالنسبة إلى LLMs الحديثة، وربما أسهل من مجالات التقييم والتقييم الرياضيات التي تم دراستها هنا. وبالتالي فإننا نعمل على تقييم القيمة الفردية لإظهار أن التقييم الكامل يتغير بسهولة مجموعة مادة الوزن في النماذج الأساسية، ومع ذلك فإن الفرق بينهما (أي اختلال) هي مرتبة عالية.

ونحن ننتظر أن يكون LoRA حسناً بشكل خاص على معدل التعلم، وأن النتائج تؤثر بشكل رئيسي على اختيار الوحدات الأساسية، وفي حد ذاته إلى حد أقل على مستوى.

للتوضيح، نحن نساعد على النتائج التالية:

• التقييم الكامل هو أكثر دقة وأكثر كفاءة من LoRA في الكود والرياضيات (الجزء 4.1).

• LoRA ينسى أقل من مجال المصدر ، مما يوفر شكل من أشكال التعديل (الجزء 4.2 و 4.3).

• تعزيز LoRA قوي مقارنة مع تقنيات التعديل المعتادة، كما يساعد في الحفاظ على التنوع بين الأجيال (الجزء 4.4).

• تحديد التكامل الكامل يجد تغيرات في الوزن العالي (الجزء 4.5).

مقارنة مع التقييم الكامل، LoRA هو أكثر حساسية على التقييمات العالية، وهي معدل التعلم، ودورات الهدف، ودرجة التقييم (بعد التراجع، الفقرة 4.6).

2 الخلفية

هذه الوثيقة متوفرة في archiv تحت رخصة CC BY 4.0 DEED.

متوفرة في Archive

LoRA تعلم أقل وأخفى أقل - هل هذا خطأ أو ميزة؟

طويل جدا؛ ليقرأ

طاولة اليسار

abstract

1 إدراج

2 الخلفية

About Author

شنق العلامات

تم تقديم هذه المقالة في...

Trending Topics

Classic

Neon Noir

Minty

Newspaper

HN StartUps

LoRA تعلم أقل وأخفى أقل - هل هذا خطأ أو ميزة؟

طويل جدا؛ ليقرأ

طاولة اليسار

abstract

1 إدراج

2 الخلفية

About Author

شنق العلامات

تم تقديم هذه المقالة في...

قصص ذات الصلة

Trending Topics

Classic

Neon Noir

Minty

Newspaper

HN StartUps