110 საკითხავი

LoRA less learns and forgets less – არის ეს bug ან ფუნქცია?

მიერ Large Models (dot tech)6m2025/06/17
Read on Terminal Reader

Ძალიან გრძელი; Წაკითხვა

Full finetuning გაუმჯობესებს LoRA სიზუსტით და სიჩქარით კოდი და მექანიკური სამუშაოები, მაგრამ LoRA უზრუნველყოფს უფრო ძლიერი რეგულარაციის და უზრუნველყოფს ფართო მოდელი ქცევა.
featured image - LoRA less learns and forgets less – არის ეს bug ან ფუნქცია?
Large Models (dot tech) HackerNoon profile picture
0-item

ავტორი :

(1) Dan Biderman, Columbia უნივერსიტეტი და Databricks Mosaic AI (db3236@columbia.edu);

(2) Jose Gonzalez Ortiz, Databricks Mosaic AI (J.gonzalez@databricks.com);

(3) Jacob Portes, Databricks Mosaic AI (jportes@databricks.com);

(4) Mansheej Paul, Databricks Mosaic AI (mansheej.paul@databricks.com);

(5) Philip Greengard, Columbia უნივერსიტეტი (pg2118@columbia.edu);

(6) Connor Jennings, Databricks Mosaic AI (connor.jennings@databricks.com);

(7) Daniel King, Databricks Mosaic AI (daniel.king@databricks.com);

(8) Sam Havens, Databricks Mosaic AI (sam.havens@databricks.com);

(9) Vitaliy Chiley, Databricks Mosaic AI (vitaliy.chiley@databricks.com);

(10) Jonathan Frankle, Databricks Mosaic AI (jfrankle@databricks.com);

(11) Cody Blakeney, Databricks Mosaic AI (cody.blakeney)

(12) John P. Cunningham, Columbia უნივერსიტეტი (jpc2181@columbia.edu)

Authors:

(1) Dan Biderman, Columbia უნივერსიტეტი და Databricks Mosaic AI (db3236@columbia.edu);

(2) Jose Gonzalez Ortiz, Databricks Mosaic AI (J.gonzalez@databricks.com);

(3) Jacob Portes, Databricks Mosaic AI (jportes@databricks.com);

(4) Mansheej Paul, Databricks Mosaic AI (mansheej.paul@databricks.com);

(5) Philip Greengard, Columbia უნივერსიტეტი (pg2118@columbia.edu);

(6) Connor Jennings, Databricks Mosaic AI (connor.jennings@databricks.com);

(7) Daniel King, Databricks Mosaic AI (daniel.king@databricks.com);

(8) Sam Havens, Databricks Mosaic AI (sam.havens@databricks.com);

(9) Vitaliy Chiley, Databricks Mosaic AI (vitaliy.chiley@databricks.com);

(10) Jonathan Frankle, Databricks Mosaic AI (jfrankle@databricks.com);

(11) Cody Blakeney, Databricks Mosaic AI (cody.blakeney)

(12) John P. Cunningham, Columbia უნივერსიტეტი (jpc2181@columbia.edu)

Abstract და 1 შეტყობინება

2 საფუძველზე

3 ექსპერიმენტური დაწყება და 3.1 მონაცემთა კომპლექტი მუდმივად pre-training (CPT) და Instruction Finetuning (IFT)

3.2 შეზღუდვა კვლევების გამოყენებით Coding და Math Benchmarks (დაწვრილებული დომინალური შეფასება)

3.3 Forgetting Metrics (გვერდის დონე შეფასება)

4 შედეგები

4.1 LoRA არ არის სრული finetuning პროგრამირების და მექანიკური სამუშაოები

4.2 LoRA ცდილობს ნაკლებად, ვიდრე სრული finetuning

4.3 Learning-Forgetting სავაჭრო

4.4 LoRA- ის რეგულარაციის თვისებები

4.5 სრული გაუმჯობესება კოდი და математика არ განიცდიან დაბალი ხარისხის შეზღუდვები

4.6 პრაქტიკული takeaways ოპტიმიზირებული LoRA კონფიგურაცია

5 დაკავშირებული სამუშაოები

6 განხილვა

7 მიმოხილვა და მიმოხილვა

Appendix

A. ექსპერიმენტი

B. კვლევები კვლევები კვლევები

C. სასწავლო მონაცემები

D. სავარაუდო მეხსიერების ეფექტურობის გაუმჯობესება LoRA- ს ერთად ერთ-ერთი და მრავალი GPU- ის კონფიგურაციისთვის


Abstract პოსტი

Low-Rank Adaptation (LoRA) არის ფართოდ გამოიყენება პარამეტრების ეფექტური finetuning მეთოდი დიდი ენის მოდელები. LoRA შენარჩუნებს მეხსიერებას მხოლოდ შემცირებული რეიტინგზე დაბალი რეიტინგზე. ამ სამუშაოში, ჩვენ შედარებით LoRA- ის შესრულება და სრული finetuning ორი მიზნით, პროგრამირება და მეხსიერება. ჩვენ ვფიქრობთ, რომ ორივე ინსტრუქციული finetuning (≈100K prompt-response pair) და მუდმივად pre-training (≈10B unstructured tokens) მონაცემთა რეჟიმები. ჩვენი შედეგები აჩვენებენ, რომ ყველაზე სტრუქტურებში, LoRA- ს ძირითადად არ არის შესრულებული სრული finetuning. მიუხედავად ამისა, LoRA- ს აჩვენებს

1 ინტეგრირება

დიდი ენა მოდელები (LLMs) ფინალუირება მილიარდი წონა მოითხოვს არასამთავრობო რაოდენობით GPU მეხსიერება. პარამეტრების ეფექტური ფინალუირების მეთოდები შეამციროს მეხსიერების დისკზე სასწავლო დროს დახურვის წინასწარ სასწავლო LLM და მხოლოდ სასწავლო მცირე რაოდენობით დამატებითი პარამეტრები, ხშირად ადაპტორები. Low-Rank Adaptation (LoRA; Hu et al. (2021)) სასწავლო ადაპტორები, რომლებიც დაბალი დისკზე შეუზღუდავება აირჩიული წონა მეხსიერები.


მას შემდეგ, რაც მისი ინტეგრირება, LoRA უკვე აღწერილი, როგორც მკაცრი ეფექტურობის გაუმჯობესება, რომელიც არ შეუზღუდავი სიზუსტით ახალი, მიზანი დონეზე (Hu et al., 2021; Dettmers et al., 2024; Raschka, 2023; Zhao et al., 2024b). თუმცა, მხოლოდ რამდენიმე სტუდენტები benchmark LoRA vs სრული finetuning for LLMs ერთად მილიარდი პარამეტრები, (Ivison et al., 2023; Zhuo et al., 2024; Dettmers et al., 2024), გამოქვეყნოს შეუზღუდავი შედეგები. ზოგიერთი ამ სტუდენტებს დამოკიდებულია ძველი მოდელები (გ.შ. RoBERTa), ან მძიმე შეფასებისHere we ask: under which conditions does LoRA approximate full finetuning accuracy on challenging target domains, such as code and math?


შემცირებული პარამეტრების ტრენინგი, LoRA მიუთითებს, რათა უზრუნველყოს ფორმის რეგულარაცია, რომელიც შეუზღუდავი finetuned მოდელის ქცევა, რათა იყოს ახლოს ძირითადი მოდელი (Sun et al., 2023; Du et al., 2024).We also ask: does LoRA act as a regularizer that mitigates “forgetting” of the source domain?


ამ კვლევში, ჩვენ მკაცრი შედარებით LoRA და სრული finetuning Llama-2 7B (და ზოგიერთი შემთხვევაში, 13B) მოდელები ორი მოწინავე მიზნით დომინაში, კოდი და მატამტიკა. თითოეული დომინაში, ჩვენ შეისწავლოთ ორი სასწავლო დიზაინი. პირველი არის ინსტრუქციული finetuning, საერთო სტრატეგიის LoRA მოიცავს კითხვები და პასუხი მონაცემთა კომპლექტი ათასობით მილიონი tokens. აქ, ჩვენ გამოიყენებთ Magicoder-Evol-Instruct-110K (Wei et al., 2023) და MetaMathQA (Yu et al., 2023). მეორე დიზაინი გაგრძელებს წინასწარ სასწავლო, ნაკლებად პოპულარული პროგრამა LoRA რომელიც მოიცავს


ჩვენ შეფასებთ target-domain ეფექტურობის (საწყისი, სწავლის) გამოყენებით რთული კოდექსი და მატალიტიკური ბენდენკერები (HumanEval; Chen et al. (2021), და GSM8K; Cobbe et al. (2021)). ჩვენ შეფასებთ source-domain შეფასების ეფექტურობის შესახებ ენის ცოდნა, მსოფლიოს ცოდნა, და გონება გონება (Zellers et al., 2019; Sakaguchi et al., 2019; Clark et al., 2018).


ჩვენ ვფიქრობ, რომ კოდი, LoRA მნიშვნელოვნად ქვემოთ შესრულებს სრული finetuning, ხოლო მექანიკური, LoRA შეკუმშავს უფრო მეტი სიზუსტით (სექცია 4.1), ხოლო მოითხოვს უფრო ხანგრძლივი სასწავლო. მიუხედავად ამისა, ეს შესრულების სიზუსტით, ჩვენ გთავაზობთ, რომ LoRA უკეთესი შენარჩუნება წყარო დომენის შესრულება, ვიდრე სრული finetuning (სექცია 4.2). გარდა ამისა, ჩვენ განიხილავთ კომფორტის შორის შესრულება მიზნით და წყარო დომენში (გვინარჩუნება ვიდრე შეინარჩუნება). გარკვეული მოდელი ზომა და მონაცემთა კომპლექტი, ჩვენ ვხედავ, რომ LoRA და სრული finetuning შექმნათ მსგავსი სასწავლო-


Figure 1: Learning vs. forgetting tradeoff curves for Llama-2-7B and Llama-2-13B trained on Starcoder-Python. Gray regions are hypothetical Pareto frontiers for performance on the source domain and the code target domain.


შემდეგ ჩვენ ვჩვენებთ, რომ LoRA – მიუხედავად იმისა, რომ ნაკლებად შეუზღუდავი ხარისხი – უზრუნველყოფს უფრო ძლიერი რეგულარაციის შედარებით კლასიკური რეგულარაციის მეთოდები, როგორიცაა droppout (Srivastava et al., 2014), და წონის დაკარგვა (Goodfellow et al., 2016). ჩვენ ასევე ვჩვენებთ, რომ LoRA უზრუნველყოფს რეგულარაციის output დონეზე: ჩვენ შეამოწმოთ გენერირებული გადაწყვეტილებები HumanEval პრობლემები და იპოვს, რომ მიუხედავად იმისა, რომ სრული finetuning დასრულდება შეზღუდავი კომპლექტი გადაწყვეტილებები, LoRA შენარჩუნებს მრავალფეროვანი გადაწყვეტილებები უფრო როგორც ბაზის მოდელი (Sun et al., 2023; Du et al.,


LoRA- ს დასაწყისში იმიტომ იყო, რომ finetuning იწვევს დაბალი ხარისხის შეზღუდვა ძირითადი მოდელის წონა (Li et al., 2018; Aghajanyan et al., 2020; Hu et al., 2021). თუმცა, ამ სამუშაოების მიერ აღსანიშნავებული სამუშაოები თანამედროვე LLM- სთვის საკმაოდ ადვილია და ალბათ უფრო ადვილია, ვიდრე აქ შეამოწმებული კოდირების და მექანიკური დონეები. ასე რომ, ჩვენ აწარმოებთ ერთგული ღირებულების შეზღუდვა, რათა აჩვენოთ, რომ სრული finetuning უბრალოდ შეცვალოს ძირითადი მოდელის წონა მოდელი, და თუმცა ორი (მაგ. შეზღუდვა) შორის განსხვავება მაღალი ხარისხია. შეზღუდვის ხარისხი


ჩვენ ვფიქრობ, რომ LoRA არის განსაკუთრებით მგრძნობიარე კვლევების სიჩქარით, და მისი შესრულება ძირითადად ეფუძნება მიზნების მოდულების არჩევანი და ნაკლებად ხარისხის მიხედვით.


შეტყობინება: ჩვენ შემდეგი შედეგები გთავაზობთ:


• სრული finetuning უფრო სიზუსტით და ნიმუში ეფექტურია, ვიდრე LoRA კოდი და მატატები (Section.4.1).


• LoRA იღებს ნაკლებად წყარო დონეზე, რათა უზრუნველყოს ფორმულურიზაციის ფორმა (სექციები 4.2 და 4.3).


• LoRA- ს რეგულარაცია უფრო ძლიერია, ვიდრე საერთო რეგულარაციის ტექნოლოგიები; იგი ასევე ხელს შეუწყობს Generation Diversity- ის შენარჩუნებას (სექცია 4.4).


• Full finetuning იპოვებს მაღალი ხარისხის წნევის შეზღუდვები (Section 4.5).


Table 1: Datasets and token counts for math and code experiments


• შედარებით სრული finetuning, LoRA არის უფრო მგრძნობიარე ჰიპერპარამატორები, მაგალითად, სწავლის სიჩქარე, მიზნების მოდულები, და რეიტინგები (და შემცირებადი გარიგებით; სექცია 4.6).

2 საფუძველზე



ეს პრაქტიკა ხელმისაწვდომია archiv- ში CC BY 4.0 DEED ლიცენზია.

ეს პრაქტიკა ხელმისაწვდომია archiv- ში CC BY 4.0 DEED ლიცენზია.

ხელმისაწვდომია Archive


L O A D I N G
. . . comments & more!

About Author

Large Models (dot tech) HackerNoon profile picture
Large Models (dot tech)@largemodels
The Large-ness of Large Language Models (LLMs) ushered in a technological revolution. We dissect the research.

დაკიდეთ ტეგები

ეს სტატია იყო წარმოდგენილი...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks