110 قراءة٪ s

LoRA تعلم أقل وأخفى أقل - هل هذا خطأ أو ميزة؟

بواسطة Large Models (dot tech)6m2025/06/17
Read on Terminal Reader

طويل جدا؛ ليقرأ

تحسين كامل يتجاوز LoRA في دقة وسرعة للكود والمهمات الرياضية، ولكن LoRA يوفر تقليدًا أقوى ويحافظ على سلوك النماذج الأوسع.
featured image - LoRA تعلم أقل وأخفى أقل - هل هذا خطأ أو ميزة؟
Large Models (dot tech) HackerNoon profile picture
0-item

المؤلفين :

(1) دان بيترمان، جامعة كولومبيا و Databricks Mosaic AI (db3236@columbia.edu)

(2) جوزيف غونزيز أوريز، Databricks Mosaic AI (J.gonzalez@databricks.com)

(3) جاكوب Portes، Databricks Mosaic AI (jportes@databricks.com)

(4) Mansheej بول، Databricks Mosaic AI (mansheej.paul@databricks.com).

(5) فيليب غريغارد، جامعة كولومبيا (pg2118@columbia.edu)

(6) كونور Jennings، Databricks Mosaic AI (connor.jennings@databricks.com)

(7) دانيال كينغ، Databricks Mosaic AI (daniel.king@databricks.com).

(8) سام هافينز، Databricks Mosaic AI (sam.havens@databricks.com)

(9) فيتالي تشيلي ، Databricks Mosaic AI (vitaliy.chiley@databricks.com ) ؛

(10) جوناثان فرانكل ، Databricks Mosaic AI ( jfrankle@databricks.com ) ؛

(11) كود بلكي، Databricks Mosaic AI (cody.blakeney)

(12) جون P. Cunningham ، جامعة كولومبيا (jpc2181@columbia.edu).

Authors:

(1) دان بيترمان، جامعة كولومبيا و Databricks Mosaic AI (db3236@columbia.edu)

(2) جوزيف غونزيز أوريز، Databricks Mosaic AI (J.gonzalez@databricks.com)

(3) جاكوب Portes، Databricks Mosaic AI (jportes@databricks.com)

(4) Mansheej بول، Databricks Mosaic AI (mansheej.paul@databricks.com).

(5) فيليب غريغارد، جامعة كولومبيا (pg2118@columbia.edu)

(6) كونور Jennings، Databricks Mosaic AI (connor.jennings@databricks.com)

(7) دانيال كينغ، Databricks Mosaic AI (daniel.king@databricks.com).

(8) سام هافينز، Databricks Mosaic AI (sam.havens@databricks.com)

(9) فيتالي تشيلي ، Databricks Mosaic AI (vitaliy.chiley@databricks.com ) ؛

(10) جوناثان فرانكل ، Databricks Mosaic AI ( jfrankle@databricks.com ) ؛

(11) كود بلكي، Databricks Mosaic AI (cody.blakeney)

(12) جون P. Cunningham ، جامعة كولومبيا (jpc2181@columbia.edu).

استثناءات و 1 إدراج

2 الخلفية

3 إعداد تجربة و 3.1 مجموعات البيانات للتدريب المستمر (CPT) و التوصيل التقييم (IFT)

3.2 قياس التعلم باستخدام الكود والتصنيفات الرياضية (تقييم المجال المستهدف)

3.3 التفكير في التحديثات (تقييم الموقع المصدر)

4 النتائج

4.1 LoRA يمتلك أقلية كاملة في الإعدادات والمهام الرياضية

4.2 LoRA forgets less than full finetuning

4.3 التفكير في التفكير

4.4 خصائص التعديل LoRA

4.5 التقييم الكامل على الكود والرياضيات لا تعلم التهابات من الصفر

4.6 اتخاذ القرارات العملية لتصميم LoRA بشكل مثالي

5 الأعمال ذات الصلة

6 Discussion

7 النتائج والتوجيهات

Appendix

A. إنشاء تجربة

B. Learning rate searches

C. مجموعة بيانات التدريبية

D. زيادة كفاءة الذاكرة النظرية مع LoRA لتحديثات Single و Multi-GPU


abstract

تعتبر LoRA طريقة التقييم المستدامة التي تستخدم بشكل واسع في نموذج اللغات الكبيرة. LoRA تخزين الذاكرة عن طريق تدريب تقييمات منخفضة إلى مكونات الوزن المختارة فقط. في هذه العملية، نحن نتقارن مع أداء LoRA ومتقييم كامل على مدخلين هدفين، برنامج ومعدلات. نحن نعتبر كل من التقييم المستدام (≈100K جوازات الاستجابة المستقبلية) والتقييم المستمر (≈10B تقييمات غير هيكلية) نظامات البيانات. أظهرت النتائج لدينا أن في معظم الإعدادات، LoRA يقلل بشكل كبير من أداء التقييم المستدام. ومع ذلك، LoRA يظهر نموذج التقييم المستدامة المطلوب: إنه يحافظ بشكل أفضل على أداء

1 إدراج

تقييم نموذج اللغة الكبيرة (LLMs) مع مليارات الخصائص يتطلب كميات غير نادرة من الذاكرة GPU. تقييم التقييم الأساسي المستدام يقلل من أسطوانة الذاكرة أثناء التدريب عن طريق الحد من LLM المعدل قبل التدريب وتدريب فقط عدد صغير من النماذج الإضافية، غالبا ما تسمى التكيفات. التكيف السلبي (LoRA؛ Hu et al. (2021)) تدريب التكيفات التي هي التهابات منخفضة في مادة الوزن المختارة.


منذ تأسيسها، تم عرض LoRA كحسن التكلفة الصارم الذي لا يؤثر على دقة على المجال الأهداف الجديد (Hu et al., 2021; Dettmers et al., 2024; Raschka, 2023; Zhao et al., 2024b). ومع ذلك، إلا أن بعض الدراسات تعتمد على النماذج القديمة (على سبيل المثال، RoBERTa) أو النماذج التقييمية العميقة (على سبيل المثال، GLUE أو ROUGE) التي لا تختلف عن النماذج المعاصرة. بدلاً من ذلك، تُظهر تقييمات التخصصات المجال الأكثر حساسية، على سبيل المثال، الكمبيوتر، الحالات التي تتفاوت فيها LoRA عن النماذج الكاملة (على سبيل المثال، Ivison etHere we ask: under which conditions does LoRA approximate full finetuning accuracy on challenging target domains, such as code and math?


من خلال تدريب الأقسام الأقل ، يفترض أن LoRA يوفر شكل من أشكال التعديل الذي يحد من سلوك النماذج المتكاملة لتبقى قريبة من النماذج الأساسية (Sun et al., 2023; Du et al., 2024).We also ask: does LoRA act as a regularizer that mitigates “forgetting” of the source domain?


في هذه الدراسة، ونحن مقارنة بشكل صارم بين LoRA و finetuning الكامل لLlama-2 7B (وفي بعض الحالات، 13B) نموذجًا على كلا الجوانب الضرورية، الكود والرياضيات. في كل مجال، ونحن نستكشف دو نظام تدريب. الأول هو تدريب finetuning، السيناريو المشترك ل LoRA يتضمن مجموعة بيانات سؤال وجواب مع عشرات إلى مئات الملايين من القذائف. هنا، نحن نستخدم Magicoder-Evol-Instruct-110K (Wei et al., 2023) و MetaMathQA (Yu et al., 2023). ويواصل النظام الثاني تدريبًا متكررًا، وتتضمن تطبيقًا أقل شيوعًا لLoRA تدريبًا على مليارات من


ونحن نقيس أداء المجال الأساسية (بعد ذلك، التعلم) من خلال التحديات الكمبيوترية والنماذج الرياضية (HumanEval; Chen et al. (2021)، وGSM8K; Cobbe et al. (2021)). ونقيس أداء المجال الأساسية على فهم اللغات، والخبرة في العالم، والمهام التفكير العقلاني (Zellers et al., 2019; Sakaguchi et al., 2019; Clark et al., 2018).


ونحن نلاحظ أن LoRA يتجاوز بشكل كبير الأداء الكامل للكود، في حين أن LoRA يتجاوز الأداء الكامل للكود (الجزء 4.1)، في حين يتطلب تدريبًا أطول. على الرغم من هذه الفجوة في الأداء، ونشير إلى أن LoRA يتحمل أداء الأداء الكامل للكود بشكل أفضل مقارنة بالكود الكامل (الجزء 4.2). وبالإضافة إلى ذلك، نرى أننا نميز التوازن بين الأداء على الهدف المناسب للكود (العلم المناسب للتخفيف). لعدد من النماذج والبيانات المحددة، ونحن نجد أن LoRA وFineTuning الكامل تشكل صيغة التوازن مشابهة للتعلم والتخفيف (الجزء 4.3).


Figure 1: Learning vs. forgetting tradeoff curves for Llama-2-7B and Llama-2-13B trained on Starcoder-Python. Gray regions are hypothetical Pareto frontiers for performance on the source domain and the code target domain.


ثم أظهرت أن LoRA - حتى مع مستوى أقل قيودًا - يوفر استنتاجًا قويًا مقارنة مع طرق استنتاج الكلاسيكية الكلاسيكية مثل droppout (Srivastava et al., 2014) ، وتدهور الوزن (Goodfellow et al., 2016).


لماذا يقلل LoRA من أداء التقييم الكامل؟ أدى LoRA في الأصل على أساس جزئي من التقديرات أن التقييم الكامل يؤدي إلى اختلالات منخفضة في مادة الوزن في النماذج الأساسية (Li et al., 2018; Aghajanyan et al., 2020; Hu et al., 2021). ومع ذلك، فإن المهام التي تكتنفها هذه الأعمال سهلة نسبياً بالنسبة إلى LLMs الحديثة، وربما أسهل من مجالات التقييم والتقييم الرياضيات التي تم دراستها هنا. وبالتالي فإننا نعمل على تقييم القيمة الفردية لإظهار أن التقييم الكامل يتغير بسهولة مجموعة مادة الوزن في النماذج الأساسية، ومع ذلك فإن الفرق بينهما (أي اختلال) هي مرتبة عالية.


ونحن ننتظر أن يكون LoRA حسناً بشكل خاص على معدل التعلم، وأن النتائج تؤثر بشكل رئيسي على اختيار الوحدات الأساسية، وفي حد ذاته إلى حد أقل على مستوى.


للتوضيح، نحن نساعد على النتائج التالية:


• التقييم الكامل هو أكثر دقة وأكثر كفاءة من LoRA في الكود والرياضيات (الجزء 4.1).


• LoRA ينسى أقل من مجال المصدر ، مما يوفر شكل من أشكال التعديل (الجزء 4.2 و 4.3).


• تعزيز LoRA قوي مقارنة مع تقنيات التعديل المعتادة، كما يساعد في الحفاظ على التنوع بين الأجيال (الجزء 4.4).


• تحديد التكامل الكامل يجد تغيرات في الوزن العالي (الجزء 4.5).


Table 1: Datasets and token counts for math and code experiments


مقارنة مع التقييم الكامل، LoRA هو أكثر حساسية على التقييمات العالية، وهي معدل التعلم، ودورات الهدف، ودرجة التقييم (بعد التراجع، الفقرة 4.6).

2 الخلفية



هذه الوثيقة متوفرة في archiv تحت رخصة CC BY 4.0 DEED.

هذه الوثيقة متوفرة في archiv تحت رخصة CC BY 4.0 DEED.

متوفرة في Archive


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks