ავტორი : (1) Dan Biderman, Columbia უნივერსიტეტი და Databricks Mosaic AI (db3236@columbia.edu); (2) Jose Gonzalez Ortiz, Databricks Mosaic AI (J.gonzalez@databricks.com); (3) Jacob Portes, Databricks Mosaic AI (jportes@databricks.com); (4) Mansheej Paul, Databricks Mosaic AI (mansheej.paul@databricks.com); (5) Philip Greengard, Columbia უნივერსიტეტი (pg2118@columbia.edu); (6) Connor Jennings, Databricks Mosaic AI (connor.jennings@databricks.com); (7) Daniel King, Databricks Mosaic AI (daniel.king@databricks.com); (8) Sam Havens, Databricks Mosaic AI (sam.havens@databricks.com); (9) Vitaliy Chiley, Databricks Mosaic AI (vitaliy.chiley@databricks.com); (10) Jonathan Frankle, Databricks Mosaic AI (jfrankle@databricks.com); (11) Cody Blakeney, Databricks Mosaic AI (cody.blakeney) (12) John P. Cunningham, Columbia უნივერსიტეტი (jpc2181@columbia.edu) Authors: (1) Dan Biderman, Columbia უნივერსიტეტი და Databricks Mosaic AI (db3236@columbia.edu); (2) Jose Gonzalez Ortiz, Databricks Mosaic AI (J.gonzalez@databricks.com); (3) Jacob Portes, Databricks Mosaic AI (jportes@databricks.com); (4) Mansheej Paul, Databricks Mosaic AI (mansheej.paul@databricks.com); (5) Philip Greengard, Columbia უნივერსიტეტი (pg2118@columbia.edu); (6) Connor Jennings, Databricks Mosaic AI (connor.jennings@databricks.com); (7) Daniel King, Databricks Mosaic AI (daniel.king@databricks.com); (8) Sam Havens, Databricks Mosaic AI (sam.havens@databricks.com); (9) Vitaliy Chiley, Databricks Mosaic AI (vitaliy.chiley@databricks.com); (10) Jonathan Frankle, Databricks Mosaic AI (jfrankle@databricks.com); (11) Cody Blakeney, Databricks Mosaic AI (cody.blakeney) (12) John P. Cunningham, Columbia უნივერსიტეტი (jpc2181@columbia.edu) მაგიდა ლიცენზია Abstract და 1 შეტყობინება 2 საფუძველზე 3 ექსპერიმენტური დაწყება და 3.1 მონაცემთა კომპლექტი მუდმივად pre-training (CPT) და Instruction Finetuning (IFT) 3.2 შეზღუდვა კვლევების გამოყენებით Coding და Math Benchmarks (დაწვრილებული დომინალური შეფასება) 3.3 Forgetting Metrics (გვერდის დონე შეფასება) 4 შედეგები 4.1 LoRA არ არის სრული finetuning პროგრამირების და მექანიკური სამუშაოები 4.2 LoRA ცდილობს ნაკლებად, ვიდრე სრული finetuning 4.3 Learning-Forgetting სავაჭრო 4.4 LoRA- ის რეგულარაციის თვისებები 4.5 სრული გაუმჯობესება კოდი და математика არ განიცდიან დაბალი ხარისხის შეზღუდვები 4.6 პრაქტიკული takeaways ოპტიმიზირებული LoRA კონფიგურაცია 5 დაკავშირებული სამუშაოები 6 განხილვა 7 მიმოხილვა და მიმოხილვა Appendix A. ექსპერიმენტი B. კვლევები კვლევები კვლევები C. სასწავლო მონაცემები D. სავარაუდო მეხსიერების ეფექტურობის გაუმჯობესება LoRA- ს ერთად ერთ-ერთი და მრავალი GPU- ის კონფიგურაციისთვის Abstract პოსტი Low-Rank Adaptation (LoRA) არის ფართოდ გამოიყენება პარამეტრების ეფექტური finetuning მეთოდი დიდი ენის მოდელები. LoRA შენარჩუნებს მეხსიერებას მხოლოდ შემცირებული რეიტინგზე დაბალი რეიტინგზე. ამ სამუშაოში, ჩვენ შედარებით LoRA- ის შესრულება და სრული finetuning ორი მიზნით, პროგრამირება და მეხსიერება. ჩვენ ვფიქრობთ, რომ ორივე ინსტრუქციული finetuning (≈100K prompt-response pair) და მუდმივად pre-training (≈10B unstructured tokens) მონაცემთა რეჟიმები. ჩვენი შედეგები აჩვენებენ, რომ ყველაზე სტრუქტურებში, LoRA- ს ძირითადად არ არის შესრულებული სრული finetuning. მიუხედავად ამისა, LoRA- ს აჩვენებს 1 ინტეგრირება დიდი ენა მოდელები (LLMs) ფინალუირება მილიარდი წონა მოითხოვს არასამთავრობო რაოდენობით GPU მეხსიერება. პარამეტრების ეფექტური ფინალუირების მეთოდები შეამციროს მეხსიერების დისკზე სასწავლო დროს დახურვის წინასწარ სასწავლო LLM და მხოლოდ სასწავლო მცირე რაოდენობით დამატებითი პარამეტრები, ხშირად ადაპტორები. Low-Rank Adaptation (LoRA; Hu et al. (2021)) სასწავლო ადაპტორები, რომლებიც დაბალი დისკზე შეუზღუდავება აირჩიული წონა მეხსიერები. მას შემდეგ, რაც მისი ინტეგრირება, LoRA უკვე აღწერილი, როგორც მკაცრი ეფექტურობის გაუმჯობესება, რომელიც არ შეუზღუდავი სიზუსტით ახალი, მიზანი დონეზე (Hu et al., 2021; Dettmers et al., 2024; Raschka, 2023; Zhao et al., 2024b). თუმცა, მხოლოდ რამდენიმე სტუდენტები benchmark LoRA vs სრული finetuning for LLMs ერთად მილიარდი პარამეტრები, (Ivison et al., 2023; Zhuo et al., 2024; Dettmers et al., 2024), გამოქვეყნოს შეუზღუდავი შედეგები. ზოგიერთი ამ სტუდენტებს დამოკიდებულია ძველი მოდელები (გ.შ. RoBERTa), ან მძიმე შეფასების Here we ask: under which conditions does LoRA approximate full finetuning accuracy on challenging target domains, such as code and math? შემცირებული პარამეტრების ტრენინგი, LoRA მიუთითებს, რათა უზრუნველყოს ფორმის რეგულარაცია, რომელიც შეუზღუდავი finetuned მოდელის ქცევა, რათა იყოს ახლოს ძირითადი მოდელი (Sun et al., 2023; Du et al., 2024). We also ask: does LoRA act as a regularizer that mitigates “forgetting” of the source domain? ამ კვლევში, ჩვენ მკაცრი შედარებით LoRA და სრული finetuning Llama-2 7B (და ზოგიერთი შემთხვევაში, 13B) მოდელები ორი მოწინავე მიზნით დომინაში, კოდი და მატამტიკა. თითოეული დომინაში, ჩვენ შეისწავლოთ ორი სასწავლო დიზაინი. პირველი არის ინსტრუქციული finetuning, საერთო სტრატეგიის LoRA მოიცავს კითხვები და პასუხი მონაცემთა კომპლექტი ათასობით მილიონი tokens. აქ, ჩვენ გამოიყენებთ Magicoder-Evol-Instruct-110K (Wei et al., 2023) და MetaMathQA (Yu et al., 2023). მეორე დიზაინი გაგრძელებს წინასწარ სასწავლო, ნაკლებად პოპულარული პროგრამა LoRA რომელიც მოიცავს ჩვენ შეფასებთ target-domain ეფექტურობის (საწყისი, სწავლის) გამოყენებით რთული კოდექსი და მატალიტიკური ბენდენკერები (HumanEval; Chen et al. (2021), და GSM8K; Cobbe et al. (2021)). ჩვენ შეფასებთ source-domain შეფასების ეფექტურობის შესახებ ენის ცოდნა, მსოფლიოს ცოდნა, და გონება გონება (Zellers et al., 2019; Sakaguchi et al., 2019; Clark et al., 2018). ჩვენ ვფიქრობ, რომ კოდი, LoRA მნიშვნელოვნად ქვემოთ შესრულებს სრული finetuning, ხოლო მექანიკური, LoRA შეკუმშავს უფრო მეტი სიზუსტით (სექცია 4.1), ხოლო მოითხოვს უფრო ხანგრძლივი სასწავლო. მიუხედავად ამისა, ეს შესრულების სიზუსტით, ჩვენ გთავაზობთ, რომ LoRA უკეთესი შენარჩუნება წყარო დომენის შესრულება, ვიდრე სრული finetuning (სექცია 4.2). გარდა ამისა, ჩვენ განიხილავთ კომფორტის შორის შესრულება მიზნით და წყარო დომენში (გვინარჩუნება ვიდრე შეინარჩუნება). გარკვეული მოდელი ზომა და მონაცემთა კომპლექტი, ჩვენ ვხედავ, რომ LoRA და სრული finetuning შექმნათ მსგავსი სასწავლო- შემდეგ ჩვენ ვჩვენებთ, რომ LoRA – მიუხედავად იმისა, რომ ნაკლებად შეუზღუდავი ხარისხი – უზრუნველყოფს უფრო ძლიერი რეგულარაციის შედარებით კლასიკური რეგულარაციის მეთოდები, როგორიცაა droppout (Srivastava et al., 2014), და წონის დაკარგვა (Goodfellow et al., 2016). ჩვენ ასევე ვჩვენებთ, რომ LoRA უზრუნველყოფს რეგულარაციის output დონეზე: ჩვენ შეამოწმოთ გენერირებული გადაწყვეტილებები HumanEval პრობლემები და იპოვს, რომ მიუხედავად იმისა, რომ სრული finetuning დასრულდება შეზღუდავი კომპლექტი გადაწყვეტილებები, LoRA შენარჩუნებს მრავალფეროვანი გადაწყვეტილებები უფრო როგორც ბაზის მოდელი (Sun et al., 2023; Du et al., LoRA- ს დასაწყისში იმიტომ იყო, რომ finetuning იწვევს დაბალი ხარისხის შეზღუდვა ძირითადი მოდელის წონა (Li et al., 2018; Aghajanyan et al., 2020; Hu et al., 2021). თუმცა, ამ სამუშაოების მიერ აღსანიშნავებული სამუშაოები თანამედროვე LLM- სთვის საკმაოდ ადვილია და ალბათ უფრო ადვილია, ვიდრე აქ შეამოწმებული კოდირების და მექანიკური დონეები. ასე რომ, ჩვენ აწარმოებთ ერთგული ღირებულების შეზღუდვა, რათა აჩვენოთ, რომ სრული finetuning უბრალოდ შეცვალოს ძირითადი მოდელის წონა მოდელი, და თუმცა ორი (მაგ. შეზღუდვა) შორის განსხვავება მაღალი ხარისხია. შეზღუდვის ხარისხი ჩვენ ვფიქრობ, რომ LoRA არის განსაკუთრებით მგრძნობიარე კვლევების სიჩქარით, და მისი შესრულება ძირითადად ეფუძნება მიზნების მოდულების არჩევანი და ნაკლებად ხარისხის მიხედვით. შეტყობინება: ჩვენ შემდეგი შედეგები გთავაზობთ: • სრული finetuning უფრო სიზუსტით და ნიმუში ეფექტურია, ვიდრე LoRA კოდი და მატატები (Section.4.1). • LoRA იღებს ნაკლებად წყარო დონეზე, რათა უზრუნველყოს ფორმულურიზაციის ფორმა (სექციები 4.2 და 4.3). • LoRA- ს რეგულარაცია უფრო ძლიერია, ვიდრე საერთო რეგულარაციის ტექნოლოგიები; იგი ასევე ხელს შეუწყობს Generation Diversity- ის შენარჩუნებას (სექცია 4.4). • Full finetuning იპოვებს მაღალი ხარისხის წნევის შეზღუდვები (Section 4.5). • შედარებით სრული finetuning, LoRA არის უფრო მგრძნობიარე ჰიპერპარამატორები, მაგალითად, სწავლის სიჩქარე, მიზნების მოდულები, და რეიტინგები (და შემცირებადი გარიგებით; სექცია 4.6). 2 საფუძველზე 
 
 ეს პრაქტიკა ხელმისაწვდომია archiv- ში CC BY 4.0 DEED ლიცენზია. ეს პრაქტიკა ხელმისაწვდომია archiv- ში CC BY 4.0 DEED ლიცენზია. ხელმისაწვდომია Archive

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

How the Most Important Models Actually Work

undefined's blog

ეს აუდიო დამზადებულია სიუჟეტის ორიგინალურ ენაზე!

LoRA less learns and forgets less – არის ეს bug ან ფუნქცია?

About Author

კომენტარები

დაკიდეთ ტეგები

ეს სტატია იყო წარმოდგენილი

Related Stories

How to Not Lose 97.8% of Your Newsletter Subscribers

Karak and Space and Time Join Forces to Revolutionize Blockchain Security

Media Moves: Katy Koob Joins Dastan to Drive Decentralized Growth

Unhinged and Overstrained: The Mind of a Harassed Woman

How to Not Lose 97.8% of Your Newsletter Subscribers

Karak and Space and Time Join Forces to Revolutionize Blockchain Security

Media Moves: Katy Koob Joins Dastan to Drive Decentralized Growth

Unhinged and Overstrained: The Mind of a Harassed Woman

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps