110 avläsningar

LoRA lär sig mindre och glömmer mindre - är det en bugg eller en funktion?

förbi Large Models (dot tech)6m2025/06/17
Read on Terminal Reader

För länge; Att läsa

Full finetuning outperforms LoRA in accuracy and speed for code and math tasks, but LoRA offers stronger regularization and maintains broader model behavior.
featured image - LoRA lär sig mindre och glömmer mindre - är det en bugg eller en funktion?
Large Models (dot tech) HackerNoon profile picture
0-item

Författare :

(1) Dan Biderman, Columbia University och Databricks Mosaic AI (db3236@columbia.edu);

(2) Jose Gonzalez Ortiz, Databricks Mosaic AI (j.gonzalez@databricks.com)

(3) Jacob Portes, Databricks Mosaic AI (jportes@databricks.com)

(4) Mansheej Paul, Databricks Mosaic AI (mansheej.paul@databricks.com)

(5) Philip Greengard, Columbia University (pg2118@columbia.edu)

(6) Connor Jennings, Databricks Mosaic AI (connor.jennings@databricks.com)

(7) Daniel King, Databricks Mosaic AI (daniel.king@databricks.com)

(8) Sam Havens, Databricks Mosaic AI (sam.havens@databricks.com)

(9) Vitaliy Chiley, Databricks Mosaic AI (vitaliy.chiley@databricks.com )

(10) Jonathan Frankle, Databricks Mosaic AI (jfrankle@databricks.com)

(11) Cody Blakeney, Databricks Mosaic AI (cody.blakeney)

(12) John P. Cunningham, Columbia University (jpc2181@columbia.edu)

Authors:

(1) Dan Biderman, Columbia University och Databricks Mosaic AI (db3236@columbia.edu);

(2) Jose Gonzalez Ortiz, Databricks Mosaic AI (j.gonzalez@databricks.com)

(3) Jacob Portes, Databricks Mosaic AI (jportes@databricks.com)

(4) Mansheej Paul, Databricks Mosaic AI (mansheej.paul@databricks.com)

(5) Philip Greengard, Columbia University (pg2118@columbia.edu)

(6) Connor Jennings, Databricks Mosaic AI (connor.jennings@databricks.com)

(7) Daniel King, Databricks Mosaic AI (daniel.king@databricks.com)

(8) Sam Havens, Databricks Mosaic AI (sam.havens@databricks.com)

(9) Vitaliy Chiley, Databricks Mosaic AI (vitaliy.chiley@databricks.com);

(10) Jonathan Frankle, Databricks Mosaic AI (jfrankle@databricks.com)

(11) Cody Blakeney, Databricks Mosaic AI (cody.blakeney)

(12) John P. Cunningham, Columbia University (jpc2181@columbia.edu)

Abstract och 1 introduktion

2 Bakgrund

3 Experimentell installation och 3.1 datasatser för fortlöpande förutbildning (CPT) och instruktionsfinjustering (IFT)

3.2 Mätning av lärande med kodning och matematik benchmarks (måldomän utvärdering)

3.3 Glömma Metrics (källdomän utvärdering)

4 Resultat

4.1 LoRA underpresterar full finetuning i programmering och matematiska uppgifter

4.2 LoRA glömmer mindre än full finetuning

4.3 Den lärande-glömda handeln

4.4 LoRA:s regleringsegenskaper

4.5 Full finetuning på kod och matematik lär inte lågt rankade störningar

4.6 Praktiska takeaways för att optimalt konfigurera LoRA

5 Relaterat arbete

6 Diskussion

7 Slutsatser och referenser

Appendix

A. Experimentell installation

B. Lärandegrad sökningar

C. Utbildningsdatasatser

D. Teoretisk minneseffektivitet ökar med LoRA för enkel- och multi-GPU-inställningar


Abstrakt

Low-Rank Adaptation (LoRA) är en allmänt använd parameter-effektiv finetuning-metod för stora språkmodeller. LoRA sparar minne genom att bara träna lågt rankningsstörningar till utvalda viktmatriser. I det här arbetet jämför vi LoRA:s prestanda och full finetuning på två måldomäner, programmering och matematik. Vi överväger både instruktionsfinetuning (≈100K prompt-responspar) och fortlöpande förträning (≈10B orestrukturerade tokens) dataregimer. Våra resultat visar att i de flesta inställningar är LoRA väsentligt underpresterande full finetuning. Men LoRA visar en önskvärd formning av normalisering: det upprätthåller bättre modellbasens prestanda på uppgifter utanför måldomänen. Vi visar att

1 Introduktion

Finetuning av stora språkmodeller (LLM) med miljarder vikter kräver en icke-trivial mängd GPU-minne. Parameter-effektiva finetuningmetoder minskar minnesavtrycket under träning genom att frysa en förtränad LLM och endast träna ett litet antal ytterligare parametrar, ofta kallade adaptrar. Low-Rank Adaptation (LoRA; Hu et al. (2021)) tränar adaptrar som är låg-rank störningar till utvalda viktmatriser.


Sedan introduktionen har LoRA främjats som en strikt effektivitetsförbättring som inte äventyrar noggrannheten på den nya måldomänen (Hu et al., 2021; Dettmers et al., 2024; Raschka, 2023; Zhao et al., 2024b). Men bara en handfull studier benchmark LoRA mot full finetuning för LLMs med miljarder parametrar, (Ivison et al., 2023; Zhuo et al., 2024; Dettmers et al., 2024), rapporterar blandade resultat. Några av dessa studier förlitar sig på äldre modeller (t.ex. RoBERTa) eller grova utvärderingsbenchmarks (t.ex. GLUE eller ROUGE) som är mindre relevanta för samtida LLMs. Däremot avslöjar mer känsligaHere we ask: under which conditions does LoRA approximate full finetuning accuracy on challenging target domains, such as code and math?


Genom att träna färre parametrar antas LoRA ge en form av normalisering som begränsar den finjusterade modellens beteende att förbli nära basmodellens (Sun et al., 2023; Du et al., 2024).We also ask: does LoRA act as a regularizer that mitigates “forgetting” of the source domain?


I denna studie jämför vi noggrant LoRA och full finetuning för Llama-2 7B (och i vissa fall 13B) modeller över två utmanande måldomäner, kod och matematik. Inom varje domän utforskar vi två träningsregimer. Den första är instruktionsfinetuning, det gemensamma scenariot för LoRA som involverar fråge-svardatasatser med tiotals till hundratals miljoner tokens. Här använder vi Magicoder-Evol-Instruct-110K (Wei et al., 2023) och MetaMathQA (Yu et al., 2023). Den andra regimen fortsätter att förbereda, en mindre vanlig applikation för LoRA som involverar utbildning på miljarder okända tokens; här använder vi datasatserna StarCoder-Python (Li et al., 2023) och OpenWebMath (


Vi utvärderar måldomänens prestanda (i fortsättningen lärande) genom utmanande kodning och matematiska riktmärken (HumanEval; Chen et al. (2021), och GSM8K; Cobbe et al. (2021)). Vi utvärderar källdomänens glömska prestanda på språkförståelse, världskunskap och förnuftsmässiga resonemang (Zellers et al., 2019; Sakaguchi et al., 2019; Clark et al., 2018).


Vi finner att LoRA för kod är väsentligt underpresterande för full finetuning, medan LoRA för matematik stänger mer av klyftan (avsnitt 4.1), samtidigt som det kräver längre träning. Trots detta prestandahål visar vi att LoRA bättre upprätthåller källdomänprestanda jämfört med full finetuning (avsnitt 4.2). Dessutom karakteriserar vi kompromissen mellan prestanda på målet jämfört med källdomänen (lärande jämfört med att glömma). För en given modellstorlek och dataset finner vi att LoRA och full finetuning bildar en liknande kompromisskurva för att glömma att lära sig: LoRA som lär sig mer generellt glömmer lika mycket som full finetuning, även om vi finner fall (för kod) där LoRA kan lära sig jämförbart men glömmer mindre (avsnitt


Figure 1: Learning vs. forgetting tradeoff curves for Llama-2-7B and Llama-2-13B trained on Starcoder-Python. Gray regions are hypothetical Pareto frontiers for performance on the source domain and the code target domain.


Vi visar sedan att LoRA – även med en mindre restriktiv rang – ger starkare reglering jämfört med klassiska regleringsmetoder som dropout (Srivastava et al., 2014) och viktförlust (Goodfellow et al., 2016). Vi visar också att LoRA ger reglering på utgångsnivå: vi analyserar de genererade lösningarna på HumanEval-problem och finner att medan full finetuning kollapsar till en begränsad uppsättning lösningar, behåller LoRA en mångfald av lösningar som är mer lik basmodellen (Sun et al., 2023; Du et al., 2024).


Varför underpresterar LoRA full finetuning? LoRA var ursprungligen motiverad delvis av hypotesen att finetuning resulterar i lågklassiga störningar i basmodellens viktmatris (Li et al., 2018; Aghajanyan et al., 2020; Hu et al., 2021). Emellertid är de uppgifter som utforskas av dessa verk relativt lätta för moderna LLMs, och kanske lättare än de kodnings- och matematiska domäner som studeras här. Således utför vi en enstaka värdefördelning för att visa att full finetuning knappt ändrar spektrumet av basmodellens viktmatriser, och ändå är skillnaden mellan de två (dvs. störningen) hög. Rankingen av störningen växer när träningen fortskrider, med rankningar 10-100× högre än typiska LoRA


Vi avslutar med att föreslå bästa praxis för träningsmodeller med LoRA. Vi finner att LoRA är särskilt känslig för inlärningsfrekvenser, och att prestandan påverkas främst av valet av målmoduler och i mindre utsträckning av rang.


För att sammanfatta bidrar vi till följande resultat:


Full finetuning är mer exakt och samplingseffektivt än LoRA i kod och matematik (se avsnitt 4.1).


• LoRA glömmer mindre av källdomänen, vilket ger en form av normalisering (avsnitt 4.2 och 4.3).


• LoRA:s reglering är starkare jämfört med vanliga regleringstekniker; det bidrar också till att upprätthålla mångfalden av generationer (avsnitt 4.4).


• Full finetuning hittar störningar av hög vikt (avsnitt 4.5).


Table 1: Datasets and token counts for math and code experiments


• Jämfört med full finetuning är LoRA mer känslig för hyperparametrar, nämligen inlärningshastighet, målmoduler och rangordning (i fallande ordning, avsnitt 4.6).

2 Bakgrund



Den här artikeln finns tillgänglig på arkiv under CC BY 4.0 DEED-licens.

Den här artikeln finns tillgänglig på arkiv under CC BY 4.0 DEED-licens.

Tillgänglig i Arkiv


L O A D I N G
. . . comments & more!

About Author

Large Models (dot tech) HackerNoon profile picture
Large Models (dot tech)@largemodels
The Large-ness of Large Language Models (LLMs) ushered in a technological revolution. We dissect the research.

HÄNG TAGGAR

DENNA ARTIKEL PRESENTERAS I...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks